論文の概要: Measuring Evaluation-Context Divergence in Open-Weight LLMs: A Paired-Prompt Protocol with Pilot Evidence of Alignment-Pipeline-Specific Heterogeneity
- arxiv url: http://arxiv.org/abs/2605.06327v1
- Date: Thu, 07 May 2026 14:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.891783
- Title: Measuring Evaluation-Context Divergence in Open-Weight LLMs: A Paired-Prompt Protocol with Pilot Evidence of Alignment-Pipeline-Specific Heterogeneity
- Title(参考訳): オープンウェイトLDMにおける評価文脈の多様性の測定:アライメント-ピペリン比重不均一性のパイロットエビデンスを用いたペア型プロンプトプロトコル
- Authors: Florian A. D. Burnat, Brittany I. Davidson,
- Abstract要約: 安全ベンチマークは、言語モデルが一度デプロイされたらどのように振る舞うかを示す証拠として、定期的に扱われるが、この推論は、振る舞いがプロンプトが評価のように見えるかどうかに依存する場合、脆弱である。
我々は、評価コンテキストのばらつきを、一定のタスクのフレーミングによって引き起こされる行動の観測可能な内部的変化として定義する。
パラフレーズ変動,ベンチマーク親しみ,およびフレーミング感度を制御しながら,オープンウェイトLLMで測定するペアプロンプトプロトコルを提案する。
- 参考スコア(独自算出の注目度): 1.253312107729806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety benchmarks are routinely treated as evidence about how a language model will behave once deployed, but this inference is fragile if behavior depends on whether a prompt looks like an evaluation. We define evaluation-context divergence as an observable within-item change in behavior induced by framing a fixed task as an evaluation, a live deployment interaction, or a neutral request, and present a paired-prompt protocol that measures it in open-weight LLMs while controlling for paraphrase variation, benchmark familiarity, and judge framing-sensitivity. Across five instruction-tuned checkpoints from four open-weight families plus a matched OLMo-3 base/instruct ablation ($20$ paired items, $840$ generations per checkpoint), we find striking heterogeneity. OLMo-3-Instruct alone is eval-cautious -- evaluation framing raises refusal vs. neutral by $11.8$pp ($p=0.007$) and reduces harmful compliance vs. deployment by $3.6$pp ($p=0.024$, $0/20$ items inverted) -- while Mistral-Small-3.2, Phi-3.5-mini, and Llama-3.1-8B are deployment-cautious}, with marginal eval-vs-deployment refusal effects of $-9$ to $-20$pp. The matched OLMo-3 base also exhibits the deployment-cautious pattern, identifying alignment as the inversion stage; within Llama-3.1, the $70$B model preserves direction with attenuated magnitude, ruling out a simple ``small-model effect that reverses at scale.'' One caveat: the cross-family heterogeneity is judge-dependent. Re-judging with a different-family safety classifier (Llama-Guard-3-8B) preserves the within-OLMo eval-cautious direction but flattens the cross-family contrast, indicating that the two judges operationalize distinct constructs.
- Abstract(参考訳): 安全ベンチマークは、言語モデルが一度デプロイされたらどのように振る舞うかを示す証拠として、定期的に扱われるが、この推論は、振る舞いがプロンプトが評価のように見えるかどうかに依存する場合、脆弱である。
評価コンテキストのばらつきは、一定のタスクのフレーミングによって引き起こされる行動の観測可能な内部変化として定義し、パラメータ変動、ベンチマークの親しみ、フレーミング感度を制御しながら、オープンウェイトLLMでそれを測定するペア・プロンプトプロトコルを提案する。
4つのオープンウェイトファミリーの5つのインストラクションチューニングされたチェックポイントに加えて、マッチしたOLMo-3ベース/インストラクションアブレーション(20ドルペアアイテム、1チェックポイントあたり840ドル世代)は、著しく異質である。
OLMo-3-インストラクトのみはeval-coutiousである -- 評価フレーミングは11.8$pp (p=0.007$) の拒絶と、有害なコンプライアンス対デプロイメントを3.6$pp (p=0.024$, $0/20$) に減らし、Mistral-Small-3.2、Phi-3.5-mini、Llama-3.1-8Bはデプロイ-coutiousである。
Llama-3.1 では、70$B のモデルが方向を減衰等級で保ち、スケールを逆転する単純な ‘小モデル’ 効果を除外している。
一つの注意:家族間の異質性は判断に依存している。
異なる家族の安全分類器(Llama-Guard-3-8B)による再判断は、OLMo内部のeval-cautious方向を保ちながら、横断的なコントラストをフラットにし、2人の裁判官が異なる構成体を運用していることを示す。
関連論文リスト
- MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents [0.0]
検索強化エージェントに対するメモリ中毒攻撃を,統合評価フレームワークを用いたStackelbergゲームとして定式化する。
ASR-R: 0.25〜1.00$) による攻撃成功度を4倍に向上させる。
私たちの主な貢献は、勾配結合に接地したキャリブレーションに基づく防御であるMEMSADである。
論文 参考訳(メタデータ) (2026-05-05T08:15:41Z) - The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams [0.0]
本研究では,大規模言語モデルにおける残差ストリームアクティベーションの幾何を分析し,有害なプロンプトを検出するためのトレーニング不要な方法であるLatentBiopsyを提案する。
我々はQwen3.5-0.8BファミリーとQwen2.5-0.5Bファミリーの2つの完全モデル三重項を評価した。
latentBiopsyは、有害なvs-ノルミティブ検出のためのAUROC$geq$0.937と、良性攻撃的プロンプトから有害なプロンプトを識別するためのAUROC = 1.000を達成している。
論文 参考訳(メタデータ) (2026-03-28T21:19:58Z) - Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores [36.86032736109853]
大きな言語モデル(LLM)は、しばしば自信を持って間違っているため、確実な不確実性推定(UE)が不可欠である。
本稿では,1つのフォワードパスを用いて内部表現における層間パターンをスコアリングする,コンパクトでインスタンスごとのUE手法を提案する。
論文 参考訳(メタデータ) (2026-03-17T08:35:14Z) - Adversarial Intent is a Latent Variable: Stateful Trust Inference for Securing Multimodal Agentic RAG [5.4716896485317195]
マルチモーダルエージェントRAGに対する現在のステートレスディフェンスは、悪意のあるセマンティクスを配布する敵の戦略を検出するのに失敗する。
MMA-RAGTは,MTA (Modular Trust Agent) が管理する推定時制御フレームワークで,ほぼ信頼状態を維持している。
論文 参考訳(メタデータ) (2026-02-24T23:52:27Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。
我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。