論文の概要: Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges
- arxiv url: http://arxiv.org/abs/2602.13576v1
- Date: Sat, 14 Feb 2026 03:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.216469
- Title: Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges
- Title(参考訳): 攻撃面としてのゴム:LLM審査員の厳格な選好のドリフト
- Authors: Ruomeng Ding, Yifei Pang, He Sun, Yizhong Wang, Zhiwei Steven Wu, Zhun Deng,
- Abstract要約: LLMに基づく審査員の行動は自然なルーリックによってガイドされ、ベンチマークで検証される。
我々は、このワークフローにおいて、事前に認識されていない脆弱性を識別し、このワークフローは、Preference Drift (RIPD) という用語で表現する。
我々は、この脆弱性を選好攻撃によって悪用できることを示し、そこでは、ベンチマーク準拠者が、固定された人間またはターゲットドメインの信頼された参照から、ステア判断を編集する。
- 参考スコア(独自算出の注目度): 39.6038287387348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge's preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.
- Abstract(参考訳): 大規模言語モデルの評価とアライメントパイプラインは、LLMベースの判断にますます依存しており、その振る舞いは自然言語のルーリックによってガイドされ、ベンチマークで検証される。
我々は、このワークフローで未認識の脆弱性を特定し、Rubric-induced Preference Drift (RIPD) と呼ぶ。
rubric編集がベンチマーク検証をパスしても、対象ドメインに対する裁判官の選好において、体系的かつ方向性のシフトを発生させることができる。
ルーブリックはハイレベルな意思決定インターフェースとして機能するため、このようなドリフトは一見自然に見えるクレーター保存の編集から生じ、ベンチマークの集計やスポットチェックの制限によって検出することは困難である。
さらに、この脆弱性は、ベンチマーク準拠のルーブリックが、固定されたヒトまたは信頼されたターゲットドメインの参照からステア判断を編集し、RIPDを系統的に誘導し、ターゲットドメインの精度を9.5%(ヘムフルネス)、27.9%(ハームレスネス)まで下げるルーブリックベースの選好攻撃によって悪用されることを示す。
これらの判断を用いて、下流のポストトレーニングのための選好ラベルを生成すると、誘導バイアスはアライメントパイプラインを介して伝播し、訓練されたポリシーで内部化される。
これはモデル行動の永続的で体系的なドリフトにつながる。
以上の結果から, システムレベルのアライメントリスクは, 信頼性のみに留まらず, システムレベルのアライメントリスクが示唆された。
コードは、https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surfaceで入手できる。
警告: あるセクションには潜在的に有害なコンテンツが含まれており、すべての読者に適さない可能性がある。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - RULERS: Locked Rubrics and Evidence-Anchored Scoring for Robust LLM Evaluation [15.787947727055611]
本稿では,自然言語ルーブを実行可能な仕様に変換するコンパイラ・エグゼクタフレームワークであるRULERSを紹介する。
RULERSは、基準をバージョニングされた不変バンドルにコンパイルし、決定論的証拠検証による構造化復号を強制し、軽量なワッサーシュタインベースのポストホックキャリブレーションを適用する。
論文 参考訳(メタデータ) (2026-01-13T15:31:42Z) - Scalable Valuation of Human Feedback through Provably Robust Model Alignment [18.151660339831718]
頑健なアライメント目的は、厳密なラベルノイズの下でも同一のモデルパラメータを生成するべきである。
証明可能な再帰特性を持つ最初の原理的アライメント損失であるH"older-DPOを提案する。
このメトリクスはグラデーションフリーで、スケーラブルで自動化された人間のフィードバックの評価を可能にする。
論文 参考訳(メタデータ) (2025-05-23T13:12:37Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。