論文の概要: The Evaluation Game: Beyond Static LLM Benchmarking
- arxiv url: http://arxiv.org/abs/2605.19377v1
- Date: Tue, 19 May 2026 05:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.138954
- Title: The Evaluation Game: Beyond Static LLM Benchmarking
- Title(参考訳): 評価ゲーム:静的LLMベンチマークを超えて
- Authors: Paul Wang, Jade Garcia-Bourrée, Anne-Marie Kermarrec, Vincent Corruble,
- Abstract要約: 本稿では,評価者とトレーナーの相互作用を2人プレイヤゲームとして形式化するゲーム理論フレームワークを提案する。
モデルの局所性依存性を示す実証的証拠を提供する。
ベンチマークは静的なプロンプトのセットではなく,評価者のグループアクションの下での軌道である。
- 参考スコア(独自算出の注目度): 2.168753020470345
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As jailbreaks, adversarially crafted inputs that bypass safety constraints, continue to be discovered in Large Language Models, practitioners increasingly rely on fine-tuning as a defensive strategy. Yet the theoretical foundations underlying this robustness fine-tuning remain underexplored. We introduce a game-theoretic framework in which the interaction between an evaluator (auditing the model for jailbreaks) and a trainer is formalized as a two-player game. A key feature of our approach is the use of group actions, a mathematical structure that captures symmetries and transformations, to formally represent data augmentation. The simplest non-trivial instance is the circle with cyclic translation groups, where we exhibit various regimes depending on the trainer's generalization range. Below a critical threshold, the evaluator maintains a constant miss ratio for linearly many rounds, whereas other settings can yield very different behaviors. We further provide empirical evidence supporting locality-dependence of the model: for the three model families we tested (Llama, Qwen and Mistral), we have significant evidence that fine-tuning on adversarial prompts induces only local generalization, with refusal rates on test examples highly correlated with the distance to the fine-tuning prompts. Our framework recasts the central object of adversarial evaluation: a benchmark is not a static set of prompts but an orbit under the evaluator's group action, and audit protocols that ignore trainer-side adaptation cannot distinguish a genuine fix from a memorized patch.
- Abstract(参考訳): ジェイルブレイク(jailbreak)は、安全上の制約を回避し、大規模言語モデルで発見されるような敵意に作られた入力であり、実践者は防御戦略として微調整をますます頼りにしている。
しかし、この頑丈さの微調整の基礎となる理論的基礎は未解明のままである。
本稿では,評価者(ジェイルブレイクのモデルを監査する)とトレーナーの相互作用を2人プレイヤゲームとして形式化するゲーム理論フレームワークを提案する。
このアプローチの重要な特徴は、データ拡張を正式に表現するために、対称性と変換をキャプチャする数学的構造であるグループアクションを使用することである。
最も単純な非自明な例は巡回変換群を持つ円であり、トレーナーの一般化範囲に応じて様々な規則を示す。
臨界しきい値以下では、評価器は線形に多くのラウンドに対して一定のミス比を維持するが、他の設定では、非常に異なる振る舞いが得られる。
さらに,実験を行った3つのモデルファミリー(Llama, Qwen, Mistral)に対して,逆数プロンプトの微調整が局所的な一般化のみを誘導することを示す重要な証拠が得られた。
ベンチマークは静的なプロンプトではなく,評価者のグループアクションに基づく軌道であり,トレーニング側適応を無視する監査プロトコルは,記憶されたパッチと真の修正を区別することができない。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。