論文の概要: HIPO: Instruction Hierarchy via Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.16152v1
- Date: Tue, 17 Mar 2026 06:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.123361
- Title: HIPO: Instruction Hierarchy via Constrained Reinforcement Learning
- Title(参考訳): HIPO:制約付き強化学習による指導階層
- Authors: Keru Chen, Jun Luo, Sen Lin, Yingbin Liang, Alvaro Velasquez, Nathaniel Bastian, Shaofeng Zou,
- Abstract要約: textscHIPOは、制約付きマルコフ決定プロセスとしてHIFを定式化する新しいアライメントフレームワークである。
textscHIPOはシステムプロンプトを単に入力コンテキストから厳密なアルゴリズム境界まで高める。
- 参考スコア(独自算出の注目度): 57.40686733111483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical Instruction Following (HIF) refers to the problem of prompting large language models with a priority-ordered stack of instructions. Standard methods like RLHF and DPO typically fail in this problem since they mainly optimize for a single objective, failing to explicitly enforce system prompt compliance. Meanwhile, supervised fine-tuning relies on mimicking filtered, compliant data, which fails to establish the priority asymmetry at the algorithmic level. In this paper, we introduce \textsc{HIPO}, a novel alignment framework that formulates HIF as a Constrained Markov Decision Process. \textsc{HIPO} elevates system prompts from mere input context to strict algorithmic boundaries. Using a primal-dual safe reinforcement learning approach, the algorithm dynamically enforces system prompt compliance as an explicit constraint, maximizing user utility strictly within this feasible region. Extensive evaluations across diverse model architectures (e.g., Qwen, Phi, Llama) demonstrate that \textsc{HIPO} significantly improves both system compliance and user utility. Furthermore, mechanistic analysis reveals that this constrained optimization autonomously drives the model to shift its attention toward long-range system tokens, providing a principled foundation for reliable LLM deployment in complex workflows.
- Abstract(参考訳): 階層的命令追従 (hierarchical Instruction following, HIF) とは、命令の優先順位付けされたスタックで大規模言語モデルを誘導する問題を指す。
RLHFやDPOのような標準メソッドは、主に単一の目的のために最適化されるため、システムプロンプトコンプライアンスを明示的に強制することができないため、この問題で失敗するのが一般的である。
一方、教師付き微調整は、アルゴリズムレベルで優先的な非対称性を確立するのに失敗する、フィルタリングされた、準拠したデータの模倣に依存している。
本稿では,HIF を制約付きマルコフ決定過程として定式化する新しいアライメントフレームワークである \textsc{HIPO} を紹介する。
システムプロンプトを単に入力コンテキストから厳密なアルゴリズム境界まで高める。
このアルゴリズムは, システムプロンプトコンプライアンスを明示的な制約として動的に実施し, この実現可能な領域内でのユーザの有用性を厳格に最大化する。
多様なモデルアーキテクチャ(例えば、Qwen、Phi、Llama)にわたる広範な評価は、 \textsc{HIPO}がシステムコンプライアンスとユーザユーティリティの両方を大幅に改善することを示している。
さらに、機械的解析により、この制約付き最適化がモデルを自律的に長距離システムトークンにシフトさせ、複雑なワークフローにおける信頼性LLMデプロイメントの原則的基盤を提供することを明らかにした。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - End-to-End Learning Framework for Solving Non-Markovian Optimal Control [13.207458293652635]
本稿では、FOLTIシステムのための革新的なシステム識別方法制御戦略を提案する。
また、最初のエンドツーエンドデータ駆動学習フレームワークであるFractional-Order Learning for Optimal Control(FOLOC)も開発しています。
論文 参考訳(メタデータ) (2025-02-07T04:18:56Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。