論文の概要: Mimicking How Humans Interpret Out-of-Context Sentences Through Controlled Toxicity Decoding
- arxiv url: http://arxiv.org/abs/2503.08159v1
- Date: Tue, 11 Mar 2025 08:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:24.624300
- Title: Mimicking How Humans Interpret Out-of-Context Sentences Through Controlled Toxicity Decoding
- Title(参考訳): 制御された毒性復号によって人間が文脈外文を解釈する方法
- Authors: Maria Mihaela Trusca, Liesbeth Allein,
- Abstract要約: 本研究の目的は,テキスト外文の多種多様な解釈を生成することにより,読者が各種毒性レベルのコンテンツをどのように知覚するかをシミュレートすることである。
毒性をモデル化することにより、誤解を予測し、隠れた有毒な意味を明らかにすることができる。
- 参考スコア(独自算出の注目度): 1.4963011898406866
- License:
- Abstract: Interpretations of a single sentence can vary, particularly when its context is lost. This paper aims to simulate how readers perceive content with varying toxicity levels by generating diverse interpretations of out-of-context sentences. By modeling toxicity, we can anticipate misunderstandings and reveal hidden toxic meanings. Our proposed decoding strategy explicitly controls toxicity in the set of generated interpretations by (i) aligning interpretation toxicity with the input, (ii) relaxing toxicity constraints for more toxic input sentences, and (iii) promoting diversity in toxicity levels within the set of generated interpretations. Experimental results show that our method improves alignment with human-written interpretations in both syntax and semantics while reducing model prediction uncertainty.
- Abstract(参考訳): 一つの文の解釈は、特に文脈が失われたときに異なることがある。
本研究の目的は,テキスト外文の多種多様な解釈を生成することにより,読者が各種毒性レベルのコンテンツをどのように知覚するかをシミュレートすることである。
毒性をモデル化することにより、誤解を予測し、隠れた有毒な意味を明らかにすることができる。
提案手法は,生成した解釈の集合における毒性を明示的に制御する。
一 解釈毒性を入力と整合させること。
(二)より有毒な入力文に対する毒性制約の緩和、及び
三 発生した解釈の集合内の毒性レベルの多様性を促進すること。
実験結果から,モデル予測の不確実性を低減しつつ,構文と意味の双方における人文解釈との整合性を向上することが示された。
関連論文リスト
- Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity
Detection Through Feedback [0.0]
本稿では,ヒト・イン・ザ・ループパイプラインを組み込んだ毒性検査フレームワークを提案する。
これは、反復的なフィードバックサイクルを通じて評価者の値を集中させることで、毒性ベンチマークデータセットの信頼性を高めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T11:56:42Z) - Toxicity in Multilingual Machine Translation at Scale [3.4620477930009472]
大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。
自動毒性評価は、言語間での毒性が0%から5%に変化することを示している。
有害度が最も高い出力言語は低リソースの言語であり、最も高い毒性を持つ人口軸は性的指向、性別、性別、能力である。
論文 参考訳(メタデータ) (2022-10-06T17:26:27Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-30T18:25:18Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。