論文の概要: Linguistic Taboos and Euphemisms in Nepali
- arxiv url: http://arxiv.org/abs/2007.13798v1
- Date: Mon, 27 Jul 2020 18:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 08:39:02.374911
- Title: Linguistic Taboos and Euphemisms in Nepali
- Title(参考訳): ネパールの言語的タブーとエプヘミズム
- Authors: Nobal B. Niraula and Saurab Dulal and Diwa Koirala
- Abstract要約: ネパールにおける攻撃的言語に関する詳細なコーパスに基づく研究について述べる。
我々は、政治、宗教、人種、性別を含む18以上の異なる言語犯罪を識別し、記述する。
さらに,現代話者に人気がある1000以上の攻撃語とタブー語を手作業で構築したデータセットについても紹介する。
- 参考スコア(独自算出の注目度): 1.3535770763481905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Languages across the world have words, phrases, and behaviors -- the taboos
-- that are avoided in public communication considering them as obscene or
disturbing to the social, religious, and ethical values of society. However,
people deliberately use these linguistic taboos and other language constructs
to make hurtful, derogatory, and obscene comments. It is nearly impossible to
construct a universal set of offensive or taboo terms because offensiveness is
determined entirely by different factors such as socio-physical setting,
speaker-listener relationship, and word choices. In this paper, we present a
detailed corpus-based study of offensive language in Nepali. We identify and
describe more than 18 different categories of linguistic offenses including
politics, religion, race, and sex. We discuss 12 common euphemisms such as
synonym, metaphor and circumlocution. In addition, we introduce a manually
constructed data set of over 1000 offensive and taboo terms popular among
contemporary speakers. This in-depth study of offensive language and resource
will provide a foundation for several downstream tasks such as offensive
language detection and language learning.
- Abstract(参考訳): 世界中の言語には、言葉、フレーズ、行動(タブー)があり、社会の社会的、宗教的、倫理的な価値観に従わない、または邪魔になると見なす公共のコミュニケーションでは避けられている。
しかし、これらの言語タブーや他の言語構成を故意に使用し、傷つきやすい、卑劣な、卑劣なコメントを作る。
攻撃性は、社会物理学的な設定、話者と話者の関係、単語の選択など、全く異なる要因によって決定されるため、普遍的な攻撃性またはタブーの用語を構成することはほぼ不可能である。
本稿では,ネパールにおける攻撃言語に関するコーパスに基づく詳細な研究について述べる。
我々は、政治、宗教、人種、性別を含む18以上の異なる言語犯罪を識別し、記述する。
我々は,同義語,メタファ,転位といった12種類の共通オイフェミズムについて論じる。
また,現代話者に人気がある1000以上の攻撃語やタブー語を手作業で構築したデータセットも紹介する。
この攻撃的言語とリソースに関する詳細な研究は、攻撃的言語検出や言語学習といった下流のタスクの基盤を提供するだろう。
関連論文リスト
- Developing Linguistic Patterns to Mitigate Inherent Human Bias in
Offensive Language Detection [1.6574413179773761]
本稿では,ラベル付けプロセスにおけるバイアスを低減するための言語データ拡張手法を提案する。
このアプローチは、複数の言語にわたる攻撃的な言語分類タスクを改善する可能性がある。
論文 参考訳(メタデータ) (2023-12-04T10:20:36Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Emojis as Anchors to Detect Arabic Offensive Language and Hate Speech [6.1875341699258595]
攻撃的・憎悪的なツイートを大量に収集する汎用的な言語に依存しない手法を提案する。
絵文字に埋め込まれた言語外情報を利用して、多くの攻撃的なツイートを収集します。
論文 参考訳(メタデータ) (2022-01-18T03:56:57Z) - Identifying Offensive Expressions of Opinion in Context [0.0]
文脈における意見や感情を識別する主観的情報抽出システムは依然として課題である。
感情に基づくNLPタスクでは、文脈における全ての攻撃的または憎悪的な意見よりも、情報抽出のリソースが少ない。
この論文は、明示的で暗黙的に攻撃的で、意見の表現を誓う新しいクロス言語的および文脈的攻撃的語彙を提供する。
論文 参考訳(メタデータ) (2021-04-25T18:35:39Z) - Annotating Hate and Offenses on Social Media [1.1744028458220426]
コーパスはInstagramの政治パーソナリティページから収集され、手動で注釈付けされた。
7000件の文書は、二項分類(攻撃的対非攻撃的コメント)、犯罪のレベル(攻撃的、攻撃的、わずかに攻撃的メッセージ)、差別的内容のターゲットに関する識別という3つの異なる層に注釈付けされた。
各コメントは3つの異なるアノテーションによってアノテートされ、高いアノテータ間合意を達成した。
論文 参考訳(メタデータ) (2021-03-27T19:43:16Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。