Fugu-MT 論文翻訳(概要): Mimicking How Humans Interpret Out-of-Context Sentences Through Controlled Toxicity Decoding

論文の概要: Mimicking How Humans Interpret Out-of-Context Sentences Through Controlled Toxicity Decoding

arxiv url: http://arxiv.org/abs/2503.08159v1
Date: Tue, 11 Mar 2025 08:16:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.636369
Title: Mimicking How Humans Interpret Out-of-Context Sentences Through Controlled Toxicity Decoding
Title（参考訳）: 制御された毒性復号によって人間が文脈外文を解釈する方法
Authors: Maria Mihaela Trusca, Liesbeth Allein,
Abstract要約: 本研究の目的は,テキスト外文の多種多様な解釈を生成することにより,読者が各種毒性レベルのコンテンツをどのように知覚するかをシミュレートすることである。毒性をモデル化することにより、誤解を予測し、隠れた有毒な意味を明らかにすることができる。
参考スコア（独自算出の注目度）: 1.4963011898406866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interpretations of a single sentence can vary, particularly when its context is lost. This paper aims to simulate how readers perceive content with varying toxicity levels by generating diverse interpretations of out-of-context sentences. By modeling toxicity, we can anticipate misunderstandings and reveal hidden toxic meanings. Our proposed decoding strategy explicitly controls toxicity in the set of generated interpretations by (i) aligning interpretation toxicity with the input, (ii) relaxing toxicity constraints for more toxic input sentences, and (iii) promoting diversity in toxicity levels within the set of generated interpretations. Experimental results show that our method improves alignment with human-written interpretations in both syntax and semantics while reducing model prediction uncertainty.
Abstract（参考訳）: 一つの文の解釈は、特に文脈が失われたときに異なることがある。本研究の目的は,テキスト外文の多種多様な解釈を生成することにより,読者が各種毒性レベルのコンテンツをどのように知覚するかをシミュレートすることである。毒性をモデル化することにより、誤解を予測し、隠れた有毒な意味を明らかにすることができる。提案手法は,生成した解釈の集合における毒性を明示的に制御する。一解釈毒性を入力と整合させること。 (二)より有毒な入力文に対する毒性制約の緩和、及び三発生した解釈の集合内の毒性レベルの多様性を促進すること。実験結果から,モデル予測の不確実性を低減しつつ,構文と意味の双方における人文解釈との整合性を向上することが示された。

関連論文リスト

Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection [1.9424018922013224]
ほとんどの毒性検出モデルは、毒性を本質的なテキストの性質として扱い、その影響を形作る上での文脈の役割を見越す。我々は毒性を社会的に創発的なストレス信号として再認識する。本稿では, 毒性検出のための新しいフレームワークについて紹介し, 公式な定義と基準, 新たなデータセットに対するアプローチの検証を行った。
論文参考訳（メタデータ） (2025-03-20T12:09:01Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文参考訳（メタデータ） (2023-05-23T23:45:20Z)
Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity Detection Through Feedback [0.0]
本稿では,ヒト・イン・ザ・ループパイプラインを組み込んだ毒性検査フレームワークを提案する。これは、反復的なフィードバックサイクルを通じて評価者の値を集中させることで、毒性ベンチマークデータセットの信頼性を高めることを目的としている。
論文参考訳（メタデータ） (2023-05-11T11:56:42Z)
Toxicity in Multilingual Machine Translation at Scale [3.4620477930009472]
大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。自動毒性評価は、言語間での毒性が0%から5%に変化することを示している。有害度が最も高い出力言語は低リソースの言語であり、最も高い毒性を持つ人口軸は性的指向、性別、性別、能力である。
論文参考訳（メタデータ） (2022-10-06T17:26:27Z)
Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文参考訳（メタデータ） (2022-05-24T22:44:43Z)
Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文参考訳（メタデータ） (2022-04-30T18:25:18Z)
Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2022-03-06T23:55:12Z)
Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文参考訳（メタデータ） (2021-11-19T13:57:26Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文参考訳（メタデータ） (2021-04-18T09:19:44Z)
Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文参考訳（メタデータ） (2021-01-29T22:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。