論文の概要: In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
- arxiv url: http://arxiv.org/abs/2605.12530v1
- Date: Tue, 21 Apr 2026 18:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.790894
- Title: In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores
- Title(参考訳): 標準テストスコアではないLDMフェアネスのその場挙動評価
- Authors: Zeyu Tang, Sang T. Truong, Deonna Owens, Shreyas Sharma, Yibo Jacky Zhang, Brando Miranda, Sanmi Koyejo,
- Abstract要約: 標準化されたテストパラダイムは構造的に信頼性が低いことを示す。
制御された変動因子を多ラウンド対話に組み込む多エージェント対話フレームワークMAC-Fairnessを開発した。
In-situの行動評価は、フェアネスの目標と評価方法が異なるベンチマークで一般化できる安定したモデル固有の行動シグネチャを明らかにする。
- 参考スコア(独自算出の注目度): 20.623498601506974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM fairness should be evaluated through in-situ conversational behavior rather than standardized-test Q&A benchmarks. We show that the standardized-test paradigm can be structurally unreliable: surface-level prompt construction choices, although entirely orthogonal to the fairness question being tested, account for the majority of score variance, shift fairness conclusions in both the direction and the magnitude, and result in severe discordance in model rankings. We develop MAC-Fairness, a multi-agent conversational framework that embeds controlled variation factors into multi-round dialogue for in-situ behavior evaluation, examining how models' conversational behavior shifts when identity is varied as part of natural multi-agent interaction. Repurposing standardized-test questions as conversation seeds rather than as the evaluation instrument, we evaluate position persistence (how they hold positions, from the self-perspective) and peer receptiveness (how receptive they are to peers, from the other-perspective) across 8 million conversation transcripts spanning multiple models and identity presence configurations. In-situ behavioral evaluation reveals stable, model-specific behavioral signatures that could generalize across benchmarks differing in fairness targets and evaluation methodologies, a form of evidence the standardized-test paradigm does not offer.
- Abstract(参考訳): LLMの公平性は、標準化されたQ&Aベンチマークではなく、その場での会話行動を通じて評価されるべきである。
表面レベルのプロンプト構成選択は、テスト中のフェアネス問題に完全に直交するが、スコアのばらつきの大半を考慮し、方向と大きさの両面でフェアネスの結論をシフトし、モデルランキングに深刻な不一致をもたらす。
我々は,制御された変動因子を多ラウンド対話に組み込んだ多エージェント対話フレームワークMAC-Fairnessを開発し,自然な多エージェントインタラクションの一部として同一性が変化するときのモデルの対話行動がどう変化するかを検討する。
評価装置としてではなく,会話シードとして標準化されたテスト質問を再利用し,複数のモデルとアイデンティティの存在状況にまたがる800万の会話書き起こしに対して,位置持続性(自己認識的位置の保持方法)とピア受容性(他観的位置の受容性)を評価した。
In-situの行動評価は、標準テストパラダイムが提供していない証拠の1つとして、公正度目標と評価方法論が異なるベンチマーク間で一般化可能な、安定したモデル固有の行動シグネチャを明らかにしている。
関連論文リスト
- Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。