論文の概要: Instruction Complexity Induces Positional Collapse in Adversarial LLM Evaluation
- arxiv url: http://arxiv.org/abs/2604.27249v1
- Date: Wed, 29 Apr 2026 22:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.832197
- Title: Instruction Complexity Induces Positional Collapse in Adversarial LLM Evaluation
- Title(参考訳): 逆LLM評価におけるインストラクション複雑度による位置ずれの誘発
- Authors: Jon-Paul Cacioli,
- Abstract要約: Vagueの逆行命令は、保存されたコンテンツエンゲージメントによって適度に精度を低下させる。
2段階の応答認識回避命令は、単一応答位置にほぼ全方位濃度で極端に位置崩壊する。
その結果、命令の複雑さは、敵対的コンプライアンスがコンテンツ認識またはコンテンツブラインドメカニズムを使用するかどうかを判断できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When instructed to underperform on multiple-choice evaluations, do language models engage with question content or fall back on positional shortcuts? We map the boundary between these regimes using a six-condition adversarial instruction-specificity gradient administered to two instruction-tuned LLMs (Llama-3-8B and Llama-3.1-8B) on 2,000 MMLU-Pro items. Distributional screening (response-position entropy) and an independent content-engagement criterion (difficulty-accuracy correlation) jointly characterise each condition. The gradient reveals three regimes rather than a monotonic transition. Vague adversarial instructions produce moderate accuracy reduction with preserved content engagement. Standard sandbagging and capability-imitation instructions produce positional entropy collapse with partial content engagement. A two-step answer-aware avoidance instruction produces extreme positional collapse, with near-total concentration on a single response position (99.9% and 87.4%) and no measurable content sensitivity. This was the only multi-step instruction tested, and it produced the most extreme shortcut. The attractor position matches each model's content-absent null-prompt default. The effect replicates across both models and four academic domains. Distributional collapse and content engagement can co-occur (50% concordance between screening criteria), indicating that entropy-based screening and difficulty-based content assessment capture partially independent dimensions of response validity. Results suggest that instruction complexity can determine whether adversarial compliance uses content-aware or content-blind mechanisms in small instruction-tuned LLMs under greedy decoding.
- Abstract(参考訳): 複数選択評価において過小評価を行うように指示された場合、言語モデルは質問内容に関わるか、あるいは位置的ショートカットにフォールバックするか?
MMLU-Proの2000項目に対して,Llama-3-8B と Llama-3.1-8B の2つの命令調整 LLM に対して6条件の逆命令特異性勾配を施した。
分布スクリーニング(応答位置エントロピー)と独立コンテンツエンゲージメント基準(微分精度相関)は、それぞれの条件を共同で特徴付ける。
この勾配は、単調遷移というよりはむしろ3つの状態を明らかにする。
Vagueの逆行命令は、保存されたコンテンツエンゲージメントによって適度に精度を低下させる。
標準のサンドバッグとキャパシティ・イミテーション・インストラクションは、部分的な内容のエンゲージメントを伴う位置エントロピー崩壊を引き起こす。
2段階の応答認識回避命令は、単一の応答位置(99.9%と87.4%)にほぼ全能濃度で極端に位置崩壊し、測定可能な内容感度が得られない。
これはテストされた唯一のマルチステップ命令であり、最も極端なショートカットを生み出した。
アトラクタ位置は、各モデルのcontent-absent null-promptデフォルトと一致します。
この効果は、両方のモデルと4つの学術領域にまたがって複製される。
分布崩壊とコンテンツエンゲージメントは, スクリーニング基準の50%の一致で共起し, エントロピーに基づくスクリーニングと難易度に基づくコンテンツアセスメントが応答妥当性の半独立次元を捉えることを示す。
以上の結果から, 命令の複雑さは, 暗黙の復号化の下で, 小さな命令調整 LLM において, コンテント・アウェア, コンテント・ブラインド・メカニズムを使用するか否かを判断できることが示唆された。
関連論文リスト
- Compiling Deterministic Structure into SLM Harnesses [0.6117371161379209]
小型言語モデル(SLM)は高価であり、大量使用にはデータ主権が制限される。
本稿では,エージェント改善を個別実行計画にコンパイルするSGDe(Semantic Gradient Descent)を提案する。
論文 参考訳(メタデータ) (2026-04-19T14:04:29Z) - Sparse Visual Thought Circuits in Vision-Language Models [2.5754366051855837]
我々はQwen3-VL-8Bにおける疎視的思考回路の局所化とテストを行う因果パイプラインを開発した。
この層でSAEを訓練し、明示的な規則でタスク選択集合を構築し、精度とドリフトを定量化しながら推論時間スケーリングとアブレーションを行う。
論文 参考訳(メタデータ) (2026-03-26T06:24:36Z) - Partial Feedback Online Learning [88.27143767009376]
我々は、偏見フィードバックオンライン学習と呼ばれる新しい学習プロトコルについて研究する。
各インスタンスは許容できるラベルのセットを許可するが、学習者は1ラウンドごとに許容できるラベルを1つだけ観察する。
論文 参考訳(メタデータ) (2026-01-29T09:39:11Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models [0.4511923587827302]
大規模言語モデル(LLM)は、遅延性、復号化部分最適化、文脈劣化などの振る舞いのアーチファクトを示すことが多い。
以上の結果から, 複雑な多部命令を満足する上で, 広範囲な怠け度が示唆された。
遅延を減らし、マルチインストラクションコンプライアンスを強化する戦略を提案する。
論文 参考訳(メタデータ) (2025-12-19T03:01:59Z) - Instruction Boundary: Quantifying Biases in LLM Reasoning under Various Coverage [34.247904738521136]
異なる命令形式がLLM推論能力をどのように促進するか、それとも誤解を招くかを検討する。
本稿では,インストラクション境界の概念を導入し,異なるレベルのプロンプトカバレッジが推論バイアスにどのように寄与するかを系統的に分析する。
異なる種類の命令境界条件下でスパースラベルを識別するLLMの能力を定量化する統合フレームワークであるBiasDetectorを提案する。
論文 参考訳(メタデータ) (2025-09-24T16:15:26Z) - SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。