論文の概要: Evaluation Awareness Scales Predictably in Open-Weights Large Language Models
- arxiv url: http://arxiv.org/abs/2509.13333v1
- Date: Wed, 10 Sep 2025 06:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.527054
- Title: Evaluation Awareness Scales Predictably in Open-Weights Large Language Models
- Title(参考訳): オープンウェイト大規模言語モデルにおける評価意識尺度の予測
- Authors: Maheep Chaudhary, Ian Su, Nikhil Hooda, Nishith Shankar, Julia Tan, Kevin Zhu, Ashwinee Panda, Ryan Lagasse, Vasu Sharma,
- Abstract要約: 評価の認知度はモデルサイズとともに予測可能に向上することを示す。
このスケーリング法則は、将来の大規模モデルにおいて、偽装行動を予測することを可能にし、AI安全性のためのスケールアウェア評価戦略の設計をガイドする。
- 参考スコア(独自算出の注目度): 8.165127822088499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can internally distinguish between evaluation and deployment contexts, a behaviour known as \emph{evaluation awareness}. This undermines AI safety evaluations, as models may conceal dangerous capabilities during testing. Prior work demonstrated this in a single $70$B model, but the scaling relationship across model sizes remains unknown. We investigate evaluation awareness across $15$ models scaling from $0.27$B to $70$B parameters from four families using linear probing on steering vector activations. Our results reveal a clear power-law scaling: evaluation awareness increases predictably with model size. This scaling law enables forecasting deceptive behavior in future larger models and guides the design of scale-aware evaluation strategies for AI safety. A link to the implementation of this paper can be found at https://anonymous.4open.science/r/evaluation-awareness-scaling-laws/README.md.
- Abstract(参考訳): 大規模言語モデル(LLM)は、内部的に評価とデプロイメントのコンテキストを区別することができる。
これは、モデルがテスト中に危険な能力を隠蔽する可能性があるため、AIの安全性評価を損なう。
以前の研究は、1つの70ドルのモデルでこれを実証していたが、モデルサイズ間のスケーリング関係は未だに不明である。
本研究では, ステアリングベクトルアクティベーションに基づく線形プローブを用いて, 4つのファミリーから0.27ドルBから70ドルBまでスケールする15ドルのモデルに対する評価意識について検討した。
評価意識はモデルサイズとともに予測可能に増大する。
このスケーリング法則は、将来の大規模モデルにおいて、偽装行動を予測することを可能にし、AI安全性のためのスケールアウェア評価戦略の設計をガイドする。
本論文の実装のリンクはhttps://anonymous.4open.science/r/evaluation-awareness-scaling-laws/README.mdにある。
関連論文リスト
- Scaling Laws for Uncertainty in Deep Learning [18.87399857008617]
本稿では,データセットやモデルサイズに関して,予測の不確実性の様々な尺度に関連するスケーリング法の存在を示す。
この研究は、ベイズ的アプローチに対して繰り返される懐疑主義を追放する強力な証拠を提供する。
論文 参考訳(メタデータ) (2025-06-11T12:09:05Z) - Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。