論文の概要: Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.20601v1
- Date: Wed, 22 Apr 2026 14:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.168587
- Title: Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning
- Title(参考訳): ゴール・コンディション強化学習による指示追従課題の自己指導型計画抽出
- Authors: Zoya Volovikova, Nikita Sorokin, Dmitriy Lukashevskiy, Aleksandr Panov, Alexey Skrynnik,
- Abstract要約: SuperIgorは,自己学習機構を通じて,高レベルプランの生成と洗練を可能にする。
RLエージェントは生成された計画に従うように訓練され、言語モデルはRLのフィードバックと好みに基づいてこれらの計画を適応し、修正する。
その結果、SuperIgorエージェントはベースラインメソッドよりも厳密な命令に固執する一方で、これまで見つからなかった命令に対して強力な一般化を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 49.0945829107309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SuperIgor, a framework for instruction-following tasks. Unlike prior methods that rely on predefined subtasks, SuperIgor enables a language model to generate and refine high-level plans through a self-learning mechanism, reducing the need for manual dataset annotation. Our approach involves iterative co-training: an RL agent is trained to follow the generated plans, while the language model adapts and modifies these plans based on RL feedback and preferences. This creates a feedback loop where both the agent and the planner improve jointly. We validate our framework in environments with rich dynamics and stochasticity. Results show that SuperIgor agents adhere to instructions more strictly than baseline methods, while also demonstrating strong generalization to previously unseen instructions.
- Abstract(参考訳): 命令追従タスクのためのフレームワークであるSuperIgorを紹介する。
事前定義されたサブタスクに依存する従来のメソッドとは異なり、SuperIgorは、セルフラーニングメカニズムを通じて、言語モデルでハイレベルなプランを生成し、洗練することが可能で、手動のデータセットアノテーションの必要性が軽減される。
RLエージェントは生成された計画に従うように訓練され、言語モデルはRLのフィードバックと好みに基づいてこれらの計画を適応し、修正する。
これにより、エージェントとプランナーが共同で改善するフィードバックループが生成される。
リッチなダイナミクスと確率性を備えた環境で、私たちのフレームワークを検証する。
その結果、SuperIgorエージェントはベースラインメソッドよりも厳密な命令に固執する一方で、これまで見つからなかった命令に対して強力な一般化を示すことが明らかとなった。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Agentic Policy Optimization via Instruction-Policy Co-Evolution [44.74237684380034]
INSPOは、命令-政治共進化のための新しいフレームワークである。
強化学習ループの動的コンポーネントとして命令最適化を統合する。
実験では、INSPOは計算オーバーヘッドを極端に増加させるだけで、かなりの性能向上を達成する。
論文 参考訳(メタデータ) (2025-12-01T17:56:29Z) - From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。
我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-05-30T07:54:07Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。