論文の概要: Curriculum Design for Trajectory-Constrained Agent: Compressing Chain-of-Thought Tokens in LLMs
- arxiv url: http://arxiv.org/abs/2511.02690v1
- Date: Tue, 04 Nov 2025 16:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.103288
- Title: Curriculum Design for Trajectory-Constrained Agent: Compressing Chain-of-Thought Tokens in LLMs
- Title(参考訳): トラジェクトリ拘束剤のカリキュラム設計:LLMにおけるチェーン・オブ・サート・トークンの圧縮
- Authors: Georgios Tzannetos, Parameswaran Kamalaruban, Adish Singla,
- Abstract要約: デプロイメント中に厳格な制約の下で運用するためのトレーニングエージェントは、重大な課題を提示する。
本稿では,訓練中の制約を徐々に厳しくし,エージェントが段階的にデプロイメント要求をマスターできるようにするカリキュラム学習戦略を提案する。
- 参考スコア(独自算出の注目度): 26.165537937650413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training agents to operate under strict constraints during deployment, such as limited resource budgets or stringent safety requirements, presents significant challenges, especially when these constraints render the task complex. In this work, we propose a curriculum learning strategy that gradually tightens constraints during training, enabling the agent to incrementally master the deployment requirements. Inspired by self-paced learning techniques in unconstrained reinforcement learning (RL), our approach facilitates a smoother transition to challenging environments by initially training on simplified versions of the constraints and progressively introducing the full deployment conditions. We provide a theoretical analysis using an RL agent in a binary-tree Markov Decision Process (MDP) to demonstrate that our curriculum strategy can accelerate training relative to a baseline approach that imposes the trajectory constraints from the outset. Moreover, we empirically validate the effectiveness and generality of our method across both RL and large language model (LLM) agents in diverse settings, including a binary-tree MDP, a multi-task navigation domain, and a math reasoning task with two benchmarks. These results highlight the potential of curriculum design in enhancing the efficiency and performance of agents operating under complex trajectory constraints during deployment. Moreover, when applied to LLMs, our strategy enables compression of output chain-of-thought tokens, achieving a substantial inference speedup on consumer hardware, demonstrating its effectiveness for resource-constrained deployment.
- Abstract(参考訳): 限られたリソース予算や厳格な安全要件など、デプロイメント中に厳格な制約の下で運用するためのトレーニングエージェントは、特にこれらの制約がタスクを複雑にする場合に、重大な課題を提示します。
本研究では,訓練中の制約を徐々に厳格化するカリキュラム学習戦略を提案し,エージェントが段階的にデプロイメント要求をマスターできるようにする。
制約のない強化学習(RL)における自己ペース学習技術に着想を得た本手法は,制約の簡易バージョンを最初に訓練し,完全な展開条件を段階的に導入することによって,よりスムーズな環境への移行を促進する。
本稿では,RLエージェントを二分木マルコフ決定プロセス(MDP)に用いた理論的解析を行い,このカリキュラム戦略が軌道制約を課すベースラインアプローチと比較してトレーニングを加速できることを実証する。
さらに,2進木MDP,マルチタスクナビゲーションドメイン,および2つのベンチマークによる数理推論タスクなど,RLおよび大規模言語モデル(LLM)エージェントの多種多様な設定における手法の有効性と汎用性を実証的に検証した。
これらの結果は、展開中に複雑な軌道制約の下で動作しているエージェントの効率と性能を高めるためのカリキュラム設計の可能性を強調した。
さらに, LLMに適用した場合, 出力チェーン・オブ・シントトークンの圧縮が可能であり, 消費者ハードウェア上での推論高速化を実現し, 資源制約による展開の有効性を実証する。
関連論文リスト
- InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - Multi-Task Reinforcement Learning for Quadrotors [18.71563817810032]
本稿では,四重項制御に適した新しいマルチタスク強化学習(MTRL)フレームワークを提案する。
マルチクリティカルなアーキテクチャと共有タスクエンコーダを用いることで,タスク間の知識伝達を容易にし,単一のポリシで多様な操作を実行することができる。
論文 参考訳(メタデータ) (2024-12-17T01:10:18Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。