論文の概要: Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness
- arxiv url: http://arxiv.org/abs/2509.00591v4
- Date: Tue, 09 Sep 2025 05:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.776853
- Title: Probe-Rewrite-Evaluate: A Workflow for Reliable Benchmarks and Quantifying Evaluation Awareness
- Title(参考訳): Probe-Rewrite-Evaluate: 信頼性の高いベンチマークと評価の定量化のためのワークフロー
- Authors: Lang Xiong, Nishant Bhargava, Jeremy Chang, Jianhang Hong, Haihao Liu, Vasu Sharma, Kevin Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、現実のデプロイメントコンテキストから制御された評価設定への変更を認識すると、大きな振る舞いの変化を示すことが多い。
この不一致は、ベンチマークパフォーマンスがモデルの真の安全性と誠実さを正確に反映していない可能性があるため、AIアライメントにとって重要な課題となる。
線形プローブを用いて連続的な尺度のプロンプトを"test-like"から"deploy-like"にスコアする手法を提案する。
- 参考スコア(独自算出の注目度): 6.071703608560761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often exhibit significant behavioral shifts when they perceive a change from a real-world deployment context to a controlled evaluation setting, a phenomenon known as "evaluation awareness." This discrepancy poses a critical challenge for AI alignment, as benchmark performance may not accurately reflect a model's true safety and honesty. In this work, we systematically quantify these behavioral changes by manipulating the perceived context of prompts. We introduce a methodology that uses a linear probe to score prompts on a continuous scale from "test-like" to "deploy-like" and leverage an LLM rewriting strategy to shift these prompts towards a more natural, deployment-style context while preserving the original task. Using this method, we achieved a 30% increase in the average probe score across a strategic role-playing dataset after rewriting. Evaluating a suite of state-of-the-art models on these original and rewritten prompts, we find that rewritten "deploy-like" prompts induce a significant and consistent shift in behavior. Across all models, we observed an average increase in honest responses of 5.26% and a corresponding average decrease in deceptive responses of 12.40%. Furthermore, refusal rates increased by an average of 6.38%, indicating heightened safety compliance. Our findings demonstrate that evaluation awareness is a quantifiable and manipulable factor that directly influences LLM behavior, revealing that models are more prone to unsafe or deceptive outputs in perceived test environments. This underscores the urgent need for more realistic evaluation frameworks to accurately gauge true model alignment before deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実のデプロイメントコンテキストから制御された評価設定への変更を認識すると、大きな行動変化を示すことが多い。
この不一致は、ベンチマークパフォーマンスがモデルの真の安全性と誠実さを正確に反映していない可能性があるため、AIアライメントにとって重要な課題となる。
本研究では,これらの行動変化を,知覚されたプロンプトの文脈を操作することによって体系的に定量化する。
我々は、線形プローブを用いて、"テストライク"から"デプロイライク"までの連続的なスケールでプロンプトをスコアし、LSM書き換え戦略を活用して、これらのプロンプトを元のタスクを保存しながら、より自然なデプロイメントスタイルのコンテキストにシフトする手法を紹介します。
この手法を用いて, 戦略的なロールプレイングデータセットを書き換えた後, 平均プローブスコアが30%向上した。
これらのオリジナルおよびリライトされたプロンプトに基づいて、最先端のモデルのスイートを評価することで、リライトされた"deploy-like"プロンプトが、行動の顕著かつ一貫したシフトを引き起こすことが分かる。
いずれのモデルにおいても, 正直反応の平均は5.26%増加し, 偽装反応の平均は12.40%減少した。
さらに、拒絶率は平均6.38%増加し、安全性が向上した。
本研究は, 評価意識がLLMの行動に直接影響を及ぼす定量的かつ操作可能な要因であることを示し, 認識されたテスト環境において, モデルが不安全あるいは誤認的なアウトプットの傾向を示す。
これにより、デプロイ前に真のモデルアライメントを正確に評価する、より現実的な評価フレームワークが緊急に必要であることを示す。
関連論文リスト
- Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - ReliableEval: A Recipe for Stochastic LLM Evaluation via Method of Moments [21.37415398600286]
本稿では,意味保存型摂動空間におけるモーメント評価手法について論じる。
GPT-4oやClaude-3.7-Sonnetのようなトップパフォーマンスモデルでさえ、かなりの迅速な感度を示す。
論文 参考訳(メタデータ) (2025-05-28T09:40:48Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - A Baseline Analysis of Reward Models' Ability To Accurately Analyze
Foundation Models Under Distribution Shift [2.2310395620011945]
我々は、分配シフトによる報酬モデルの性能への影響を評価する。
OODプロンプトと応答による新しい校正パターンと精度低下を示す。
我々は、分類によく用いられるOOD検出手法を報酬モデル設定に適用し、これらの分布シフトを検出する。
論文 参考訳(メタデータ) (2023-11-21T18:41:26Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。