論文の概要: Agree to Disagree? A Meta-Evaluation of LLM Misgendering
- arxiv url: http://arxiv.org/abs/2504.17075v1
- Date: Wed, 23 Apr 2025 19:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.163928
- Title: Agree to Disagree? A Meta-Evaluation of LLM Misgendering
- Title(参考訳): 診断に同意する : LLMミスジェンダーのメタ評価
- Authors: Arjun Subramonian, Vagrant Gautam, Preethi Seshadri, Dietrich Klakow, Kai-Wei Chang, Yizhou Sun,
- Abstract要約: 我々は,誤認識に対する確率および生成に基づく評価手法の体系的メタ評価を行う。
3つのファミリから6つのモデルのスイートを自動的に評価することにより、これらのメソッドがインスタンス、データセット、モデルレベルで互いに一致しないことが分かる。
また、誤認識行動は複雑であり、代名詞をはるかに超えており、人間の評価と本質的な相違が示唆されていることも示している。
- 参考スコア(独自算出の注目度): 84.77694174309183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous methods have been proposed to measure LLM misgendering, including probability-based evaluations (e.g., automatically with templatic sentences) and generation-based evaluations (e.g., with automatic heuristics or human validation). However, it has gone unexamined whether these evaluation methods have convergent validity, that is, whether their results align. Therefore, we conduct a systematic meta-evaluation of these methods across three existing datasets for LLM misgendering. We propose a method to transform each dataset to enable parallel probability- and generation-based evaluation. Then, by automatically evaluating a suite of 6 models from 3 families, we find that these methods can disagree with each other at the instance, dataset, and model levels, conflicting on 20.2% of evaluation instances. Finally, with a human evaluation of 2400 LLM generations, we show that misgendering behaviour is complex and goes far beyond pronouns, which automatic evaluations are not currently designed to capture, suggesting essential disagreement with human evaluations. Based on our findings, we provide recommendations for future evaluations of LLM misgendering. Our results are also more widely relevant, as they call into question broader methodological conventions in LLM evaluation, which often assume that different evaluation methods agree.
- Abstract(参考訳): 確率に基づく評価(例えば、テンポラティック文で自動的に行う)や生成に基づく評価(例えば、自動ヒューリスティックスや人間による検証)など、LCMの誤認識を測定するための多くの手法が提案されている。
しかし,これらの評価手法が収束妥当性,すなわち結果が一致しているか否かは検討されていない。
そこで本研究では,3つの既存データセットにまたがって,これらの手法の体系的メタ評価を行う。
本稿では,各データセットを変換して並列確率と生成に基づく評価を実現する手法を提案する。
そして、3つのファミリーから6つのモデルのスイートを自動的に評価することにより、これらのメソッドがインスタンス、データセット、モデルレベルで互いに矛盾し、評価インスタンスの20.2%で矛盾することを発見した。
最後に, 2400 LLM 世代における人間の評価から, 誤認識行動は複雑で代名詞をはるかに超えており, 自動評価が現在キャプチャー用に設計されていないことを示し, 人間の評価と本質的な相違を示唆している。
本研究は,LLM誤認識の今後の評価を推奨するものである。
LLM評価の方法論的慣行に疑問を呈し, 異なる評価手法が一致していると考えることが多い。
関連論文リスト
- An Empirical Study of Evaluating Long-form Question Answering [77.8023489322551]
我々は,5,236個のファクトイドおよび非ファクトイドの長文回答を,異なる大言語モデルから収集する。
我々は,2,079件の人的評価を行い,正確性と情報性に着目した。
回答のスタイルや長さ,質問のカテゴリが,自動評価指標に偏りがあることが分かりました。
論文 参考訳(メタデータ) (2025-04-25T15:14:25Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。
LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。
本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-07T17:11:34Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。