Fugu-MT 論文翻訳(概要): Attribute-Based Diagnosis of LLM Alignment with Hate Speech Annotations

論文の概要: Attribute-Based Diagnosis of LLM Alignment with Hate Speech Annotations

arxiv url: http://arxiv.org/abs/2605.27025v1
Date: Tue, 26 May 2026 13:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:42.196265
Title: Attribute-Based Diagnosis of LLM Alignment with Hate Speech Annotations
Title（参考訳）: ヘイト音声アノテーションを用いたLCMアライメントの属性に基づく診断
Authors: Mohammad Amine Jradi, Faeze Ghorbanpour, Alexander Fraser,
Abstract要約: ヘイトスピーチアノテーションはコストが高く、主観的で、アノテータの意見の相違がちである。大規模言語モデル(LLM)が人間の判断とどのように一致しているかを分析する。本研究では, ヘイトスピーチコーパスから連続ヘイトスピーチスコアを再構成する。
参考スコア（独自算出の注目度）: 48.69228180369574
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Hate speech annotation is costly, subjective, and prone to annotator disagreement, making large-scale dataset construction challenging. We systematically analyze how well large language models (LLMs) align with human judgments across ten theoretically grounded subjective attributes, such as dehumanization, violence, and sentiment, evaluating both small and large variants of Llama 3.1 and Qwen 2.5. Our analysis reveals a consistent split across all models: behaviorally explicit dimensions (insult, humiliate, attack-defend) correlate strongly with human annotations, while evaluative dimensions (respect, sentiment, hate speech) are systematically inverted. Demographic persona conditioning reduces model confidence without improving alignment. Building on these insights, we propose combining attribute-level LLM predictions via a confidence-weighted Ridge regression to reconstruct continuous hate speech scores from the Measuring Hate Speech corpus, achieving $R^2$ of up to 0.71 and outperforming direct prompting baselines, demonstrating that structured attribute decomposition recovers a richer and more human-aligned signal than end-to-end label prediction alone.
Abstract（参考訳）: ヘイトスピーチアノテーションはコストが高く、主観的で、アノテータの不一致を招きやすいため、大規模なデータセット構築が困難になる。我々は,Llama 3.1 と Qwen 2.5 の小さな変種と大きな変種を比較検討し,大規模言語モデル(LLM)が,非人間化,暴力,感情など,理論的に根ざした10つの主観的属性の人間の判断とどのように一致しているかを体系的に分析した。行動的明示的次元(侮辱的、屈辱的、攻撃的防御)は人間のアノテーションと強く相関し、評価的次元(尊敬的、感情的、憎悪的スピーチ)は体系的に逆転している。デモグラフィックのペルソナ条件付けは、アライメントを改善することなくモデルの信頼性を低下させる。これらの知見に基づいて、信頼度重み付きリッジ回帰を用いた属性レベルのLLM予測を組み合わせることで、測定用ヘイトスピーチコーパスから連続ヘイトスピーチスコアを再構成し、最大0.71ドルのR^2$を達成し、直接的プロンプトベースラインよりも優れ、構造的属性分解により、エンドツーエンドのラベル予測よりもリッチでより人間的なシグナルが復元されることを示す。

関連論文リスト

Mastering Negation: Boosting Grounding Models via Grouped Opposition-Based Learning [87.15765427638195]
D-Negationは、ポジティブな意味記述とネガティブな意味記述の両方で注釈付けされたオブジェクトを提供する新しいデータセットである。本稿では,限られたサンプルから否定認識表現を学習する,反抗型学習フレームワークを提案する。モデルパラメータの10%未満を微調整することにより、正および負のセマンティック評価において最大4.4mAPおよび5.7mAPの改善が達成される。
論文参考訳（メタデータ） (2026-03-13T03:21:48Z)
Human Supervision as an Information Bottleneck: A Unified Theory of Error Floors in Human-Guided Learning [51.56484100374058]
制約は、モデルスケールや最適化よりも、監督チャネルの構造的特性を反映している、と我々は主張する。我々は、人間の監督チャネルが潜在評価対象に十分でない場合、情報伝達チャネルとして機能することを示す統一理論を開発する。
論文参考訳（メタデータ） (2026-02-26T19:11:32Z)
Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets [0.6918368994425961]
我々は、アノテータとターゲットの両方の社会デマトグラフィー情報を豊富なデータセットで活用する。分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付ける広範囲なバイアスの存在が明らかになった。私たちの研究は、ヘイトスピーチアノテーションにおける人間のバイアスに関する新しい、そして、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2024-10-10T14:48:57Z)
Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文参考訳（メタデータ） (2020-09-22T02:15:05Z)
Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文参考訳（メタデータ） (2020-03-31T02:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。