論文の概要: Decomposing and Measuring Evaluation Awareness
- arxiv url: http://arxiv.org/abs/2605.23055v1
- Date: Thu, 21 May 2026 21:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.108073
- Title: Decomposing and Measuring Evaluation Awareness
- Title(参考訳): 評価意識の分解と測定
- Authors: Changling Li, Terry Jingchen Zhang, Jie Zhang, Zhijing Jin, Sahar Abdelnabi, Maksym Andriushchenko,
- Abstract要約: 本研究では,社会心理学における評価意識を環境成分とモデル成分に分解する。
環境コンポーネントをプレースホルダーエンティティやグレーディングスタイルの出力フォーマットなど,8つの分類されたトリガーファクタを通じて運用する。
bftextEvalAwareBenchは,100対の安全機能タスクの因子制御ベンチマークである。
- 参考スコア(独自算出の注目度): 31.24565272626909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier language models sometimes recognize that they are being evaluated and adjust their behavior, undermining validity of benchmark results. Yet the field studies it without a shared foundation, conflating properties of the evaluation with properties of the model, and detection with behavioral response. We ground evaluation awareness in social psychology, decomposing it into an environment component (how recognizable the task is) and a model component that separates recognition from propensity to act on it. We operationalize the environment component through eight categorized trigger factors, such as placeholder entities and grading-style output formats, and study recognition and behavior through chain-of-thought monitoring. Across nine frontier models and four benchmarks, recognition rates depend on the specific pairing of model and benchmark rather than on either in isolation. Recognition rarely leads to behavioral change, and when it does, the direction depends on the type of evaluation perceived. Models are also more sensitive to safety than capability evaluations, placing safety benchmark validity at greater risk. To study which factors each model is sensitive to and how they interact, we propose \textbf{EvalAwareBench}, a factor-controlled benchmark of 100 paired safety-capability tasks where each of the eight factors can be independently toggled, varying evaluative signals while holding the underlying request fixed. Through EvalAwareBench, we find that no single factor uniformly affects all models, but stacking factors progressively raises evaluation awareness across all of them. Our framework and EvalAwareBench provide the tools to measure, attribute, and mitigate evaluation awareness, pointing to behavioral consistency under recognition as a promising path forward.
- Abstract(参考訳): 最前線の言語モデルは、それらが評価され、それらの振る舞いを調整することを認識し、ベンチマーク結果の妥当性を損なうことがある。
しかし、フィールドはそれを共有基盤なしで研究し、モデルの特性と評価の融合性、行動応答による検出を行う。
我々は,社会心理学における評価意識を,環境成分(タスクがどの程度認識可能か)と,その上で行動する確率から認識を分離するモデル成分に分解する。
環境コンポーネントをプレースホルダーエンティティやグレーディングスタイルのアウトプットフォーマットといった8つの分類されたトリガーファクタを通じて運用し,チェーンオブ思考モニタリングを通じて認識と行動を研究する。
9つのフロンティアモデルと4つのベンチマークで、認識率はモデルとベンチマークの特定のペアリングに依存する。
認識は行動の変化につながることはめったになく、その場合、その方向は知覚される評価の種類に依存する。
モデルはまた、能力評価よりも安全性に敏感であり、安全性ベンチマークの妥当性を高いリスクに設定する。
そこで本研究では,各モデルがどの要素に敏感であるか,どのように相互作用するかを検討するために,各因子をそれぞれ独立に切り替えることのできる,100対の安全機能タスクの因子制御ベンチマークである‘textbf{EvalAwareBench} を提案する。
EvalAwareBenchを通じて、単一の要因がすべてのモデルに一様に影響を与えることはないが、積み重ね要因は徐々に評価の認知を高めている。
私たちのフレームワークとEvalAwareBenchは、評価意識を計測、属性化、緩和するためのツールを提供し、将来性のある道として認識の下での行動整合性を指し示しています。
関連論文リスト
- Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - Decomposing and Steering Functional Metacognition in Large Language Models [7.62618887128252]
大規模言語モデルは機能的メタ認知状態の分解可能な空間を維持していることを示す。
これらの状態は、内部の活性化から線形に退避可能であり、異なる層回りのプロファイルを示す。
この結果から,ベンチマーク性能はタスク能力だけでなく,特定の機能的メタ認知状態の活性化を反映していることが示唆された。
論文 参考訳(メタデータ) (2026-05-09T13:22:47Z) - In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores [20.623498601506974]
標準化されたテストパラダイムは構造的に信頼性が低いことを示す。
制御された変動因子を多ラウンド対話に組み込む多エージェント対話フレームワークMAC-Fairnessを開発した。
In-situの行動評価は、フェアネスの目標と評価方法が異なるベンチマークで一般化できる安定したモデル固有の行動シグネチャを明らかにする。
論文 参考訳(メタデータ) (2026-04-21T18:38:50Z) - Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent [58.90049897180927]
視覚モデルにおける視覚的特徴の意図しない依存を検出するための自動フレームワークを提案する。
自己反射エージェントは、モデルが依存する可能性のある視覚特性に関する仮説を生成し、テストする。
我々は,視覚特性の多様さを示すために設計された130モデルの新しいベンチマークに対して,我々のアプローチを評価した。
論文 参考訳(メタデータ) (2025-10-24T17:59:02Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - The Hawthorne Effect in Reasoning Models: Evaluating and Steering Test Awareness [11.38027628419642]
推論に焦点を当てたLLMは、評価されていることを検知すると、その振る舞いを変えることがある。
このような「テスト意識」がモデル行動に与える影響について、最初の定量的研究を行った。
論文 参考訳(メタデータ) (2025-05-20T17:03:12Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。