論文の概要: IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
- arxiv url: http://arxiv.org/abs/2603.10521v1
- Date: Wed, 11 Mar 2026 08:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.845145
- Title: IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
- Title(参考訳): IH-Challenge:フロンティアLLMにおける命令階層の改善のためのトレーニングデータセット
- Authors: Chuan Guo, Juan Felipe Ceron Uribe, Sicheng Zhu, Christopher A. Choquette-Choo, Steph Lin, Nikhil Kandpal, Milad Nasr, Rai, Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao,
- Abstract要約: 命令階層 (IH) は、LLMがシステム、開発者、ユーザ、ツールの命令をどのように優先順位付けするかを定義する。
IHは、ジェイルブレイク、システムプロンプト抽出、エージェントプロンプトインジェクションに対する防御の鍵である。
強化学習トレーニングデータセットであるIH-Challengeを紹介する。
- 参考スコア(独自算出の注目度): 36.45053394525369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction hierarchy (IH) defines how LLMs prioritize system, developer, user, and tool instructions under conflict, providing a concrete, trust-ordered policy for resolving instruction conflicts. IH is key to defending against jailbreaks, system prompt extractions, and agentic prompt injections. However, robust IH behavior is difficult to train: IH failures can be confounded with instruction-following failures, conflicts can be nuanced, and models can learn shortcuts such as overrefusing. We introduce IH-Challenge, a reinforcement learning training dataset, to address these difficulties. Fine-tuning GPT-5-Mini on IH-Challenge with online adversarial example generation improves IH robustness by +10.0% on average across 16 in-distribution, out-of-distribution, and human red-teaming benchmarks (84.1% to 94.1%), reduces unsafe behavior from 6.6% to 0.7% while improving helpfulness on general safety evaluations, and saturates an internal static agentic prompt injection evaluation, with minimal capability regression. We release the IH-Challenge dataset (https://huggingface.co/datasets/openai/ih-challenge) to support future research on robust instruction hierarchy.
- Abstract(参考訳): 命令階層(IH)は、LLMがシステム、開発者、ユーザ、ツールの命令を競合下で優先順位付けする方法を定義し、命令競合を解決するための具体的かつ信頼性の高いポリシーを提供する。
IHは、ジェイルブレイク、システムプロンプト抽出、エージェントプロンプトインジェクションに対する防御の鍵である。
しかし、堅牢なIH動作のトレーニングは困難である。IH障害は命令追従障害と組み合わせることができ、競合はニュアンス化され、モデルはオーバーリファンスのようなショートカットを学習することができる。
これらの課題に対処するために、強化学習トレーニングデータセットであるIH-Challengeを紹介する。
GPT-5-Mini on IH-Challenge with online adversarial example generation(英語版)は16のin-distriion、out-of-distriion、および人間のred-teamingベンチマーク(84.1%から94.1%)の平均でIHのロバスト性を+10.0%改善し、安全でない振る舞いを6.6%から0.7%に減らし、一般的な安全性評価の助けを向上し、内部の静的なエージェントインプットインジェクション評価を最小限の能力で飽和させる。
IH-Challengeデータセット(https://huggingface.co/datasets/openai/ih-challenge)をリリースした。
関連論文リスト
- Reinforcement Unlearning via Group Relative Policy Optimization [20.66330243194323]
PURGE(Policy Unlearning through Relative Group Erasure)は、未学習を検証可能な問題として定式化する新しい手法である。
提案手法は,SotA法と比較して目標単位のトークン使用率を最大46倍に削減すると同時に,流速を5.48%向上させる。
リアル・ワールド・ナレッジ・アンラーニング(RWKU)ベンチマークでは、PURGEは11%の非ラーニング効果を達成し、元のユーティリティの98%を保存している。
論文 参考訳(メタデータ) (2026-01-28T13:07:58Z) - LSHFed: Robust and Communication-Efficient Federated Learning with Locally-Sensitive Hashing Gradient Mapping [27.641729042448194]
フェデレートラーニング(FL)は、生データを公開せずに、分散ノード間で協調的なモデルトレーニングを可能にする。
推論攻撃は、勾配更新から機密情報を回復し、中毒攻撃はモデルの性能を低下させたり、悪意ある振る舞いを誘発する可能性がある。
集約とプライバシ保護を同時に強化する,堅牢で通信効率のよいFLフレームワークであるLSHFedを提案する。
論文 参考訳(メタデータ) (2025-11-03T07:28:14Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - Adaptive Segment-level Reward: Bridging the Gap Between Action and Reward Space in Alignment [13.087267214534727]
強化学習(RL)は大規模言語モデル(LLM)と人間の嗜好の整合に極めて効果的であることが証明されている。
典型的なRL法は、全体的なシーケンス報酬の下で最適化され、最適以下の学習プロセスにつながる可能性がある。
これは重要なクレジット割り当ての問題、すなわち、強化または抑制するトークンを特定することを反映している。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。