論文の概要: Probing Association Biases in LLM Moderation Over-Sensitivity
- arxiv url: http://arxiv.org/abs/2505.23914v1
- Date: Thu, 29 May 2025 18:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.613297
- Title: Probing Association Biases in LLM Moderation Over-Sensitivity
- Title(参考訳): LLM変調過敏性におけるプローブアソシエーションバイアス
- Authors: Yuxin Wang, Botao Yu, Ivory Yang, Saeed Hassanpour, Soroush Vosoughi,
- Abstract要約: 大規模言語モデルは、コンテンツモデレーションに広く使用されるが、しばしば良心的なコメントを有毒と誤分類する。
トピック・アソシエーション・アナリティクス(トピック・アソシエーション・アナリティクス)は,LLMが特定のトピックと毒性をどう関連づけるかを定量化するセマンティック・レベルのアプローチである。
より高度なモデル(例えば、GPT-4 Turbo)は、全体的な偽陽性率が低いにもかかわらず、より強力なトピックステレオタイプを示す。
- 参考スコア(独自算出の注目度): 42.191744175730726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are widely used for content moderation but often misclassify benign comments as toxic, leading to over-sensitivity. While previous research attributes this issue primarily to the presence of offensive terms, we reveal a potential cause beyond token level: LLMs exhibit systematic topic biases in their implicit associations. Inspired by cognitive psychology's implicit association tests, we introduce Topic Association Analysis, a semantic-level approach to quantify how LLMs associate certain topics with toxicity. By prompting LLMs to generate free-form scenario imagination for misclassified benign comments and analyzing their topic amplification levels, we find that more advanced models (e.g., GPT-4 Turbo) demonstrate stronger topic stereotype despite lower overall false positive rates. These biases suggest that LLMs do not merely react to explicit, offensive language but rely on learned topic associations, shaping their moderation decisions. Our findings highlight the need for refinement beyond keyword-based filtering, providing insights into the underlying mechanisms driving LLM over-sensitivity.
- Abstract(参考訳): 大規模言語モデルは、コンテンツモデレーションに広く使われているが、しばしば良心的なコメントを有害と誤分類し、過敏を引き起こす。
従来の研究では、この問題は主に攻撃的用語の存在によるものだが、トークンレベルを超える潜在的な原因が明らかになっている。
認知心理学の暗黙の関連性テストに触発され、LLMが特定のトピックと毒性をどう関連づけるかを定量化する意味レベルアプローチであるトピック・アソシエーション・アナリティクス(Topic Association Analysis)を導入する。
誤分類ベニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネグネ
これらのバイアスは、LLMが単に明示的で攻撃的な言語に反応するだけでなく、学習したトピック関連に依存し、モデレーションの決定を形作ることを示唆している。
以上の結果から,LLMの過敏性を促進するメカニズムを解明する上で,キーワードベースのフィルタリング以上の改良の必要性が浮かび上がっている。
関連論文リスト
- Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。
本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。
我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-16T14:28:33Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - A Theory of LLM Sampling: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。
このサンプリング行動が人間の意思決定と類似していることが示される。
統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。