論文の概要: Large Language Models Often Know When They Are Being Evaluated
- arxiv url: http://arxiv.org/abs/2505.23836v2
- Date: Fri, 06 Jun 2025 19:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.162203
- Title: Large Language Models Often Know When They Are Being Evaluated
- Title(参考訳): 大規模言語モデルはいつ評価されるのかをよく知る
- Authors: Joe Needham, Giles Edkins, Govind Pimpale, Henning Bartsch, Marius Hobbhahn,
- Abstract要約: そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
- 参考スコア(独自算出の注目度): 0.015534429177540245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If AI models can detect when they are being evaluated, the effectiveness of evaluations might be compromised. For example, models could have systematically different behavior during evaluations, leading to less reliable benchmarks for deployment and governance decisions. We investigate whether frontier language models can accurately classify transcripts based on whether they originate from evaluations or real-world deployment, a capability we call evaluation awareness. To achieve this, we construct a diverse benchmark of 1,000 prompts and transcripts from 61 distinct datasets. These span public benchmarks (e.g., MMLU, SWEBench), real-world deployment interactions, and agent trajectories from scaffolding frameworks (e.g., web-browsing agents). Frontier models clearly demonstrate above-random evaluation awareness (Gemini-2.5-Pro reaches an AUC of $0.83$), but do not yet surpass our simple human baseline (AUC of $0.92$). Furthermore, both AI models and humans are better at identifying evaluations in agentic settings compared to chat settings. Additionally, we test whether models can identify the purpose of the evaluation. Under multiple-choice and open-ended questioning, AI models far outperform random chance in identifying what an evaluation is testing for. Our results indicate that frontier models already exhibit a substantial, though not yet superhuman, level of evaluation-awareness. We recommend tracking this capability in future models.
- Abstract(参考訳): もしAIモデルが評価されていることを検知できれば、評価の有効性は損なわれる可能性がある。
例えば、モデルは評価中に組織的に異なる振る舞いをする可能性があり、デプロイやガバナンスの決定に対する信頼性の低いベンチマークにつながります。
本研究は,フロンティア言語モデルを用いて,評価や実世界の展開を起源とする文字を正確に分類できるかどうかを考察する。
これを実現するために、61の異なるデータセットから1000のプロンプトと書き起こしの多種多様なベンチマークを構築した。
これらは、パブリックベンチマーク(例:MMLU、SWEBench)、実世界のデプロイメントインタラクション、および足場フレームワーク(例:Webブラウジングエージェント)からのエージェントトラジェクトリにまたがる。
フロンティアモデルは明らかに上記のランダムな評価意識を示す(Gemini-2.5-Proは0.83ドルに達する)が、私たちの単純な人間のベースラインを超えていない(AUCは0.92ドル)。
さらに、AIモデルと人間の両方が、チャット設定よりもエージェント設定での評価を識別するのが優れている。
さらに,モデルが評価の目的を識別できるかどうかを検証した。
複数の選択とオープンな質問の下で、AIモデルは、評価が何をテストしているかを識別する確率をはるかに上回る。
以上の結果から,フロンティアモデルは,まだ超人的ではないが,評価意識のレベルがかなり高いことが示唆された。
将来のモデルでこの能力を追跡することをお勧めします。
関連論文リスト
- Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - Auditing an Automatic Grading Model with deep Reinforcement Learning [0.0]
自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。
人間の評価に対する高いレベルの合意は、ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
論文 参考訳(メタデータ) (2024-05-11T20:07:09Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。