論文の概要: Learning Instruction-Following Policies through Open-Ended Instruction Relabeling with Large Language Models
- arxiv url: http://arxiv.org/abs/2506.20061v1
- Date: Tue, 24 Jun 2025 23:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.565645
- Title: Learning Instruction-Following Policies through Open-Ended Instruction Relabeling with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたオープンエンディング教育の学習
- Authors: Zhicheng Zhang, Ziyan Wang, Yali Du, Fei Fang,
- Abstract要約: 本稿では,これまで収集したエージェントの軌跡を振り返ってオープンエンド命令を自動生成する手法を提案する。
我々の中核的な考え方は、エージェントが暗黙的に達成した意味のあるサブタスクを識別することで、LLMを用いて、軌道変更の失敗を回避することである。
我々は,本提案手法を課題であるCraftax環境において実証的に評価し,サンプル効率,命令カバレッジ,全体的な政策性能の明確な改善を実証した。
- 参考スコア(独自算出の注目度): 37.67925131391676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing effective instruction-following policies in reinforcement learning remains challenging due to the reliance on extensive human-labeled instruction datasets and the difficulty of learning from sparse rewards. In this paper, we propose a novel approach that leverages the capabilities of large language models (LLMs) to automatically generate open-ended instructions retrospectively from previously collected agent trajectories. Our core idea is to employ LLMs to relabel unsuccessful trajectories by identifying meaningful subtasks the agent has implicitly accomplished, thereby enriching the agent's training data and substantially alleviating reliance on human annotations. Through this open-ended instruction relabeling, we efficiently learn a unified instruction-following policy capable of handling diverse tasks within a single policy. We empirically evaluate our proposed method in the challenging Craftax environment, demonstrating clear improvements in sample efficiency, instruction coverage, and overall policy performance compared to state-of-the-art baselines. Our results highlight the effectiveness of utilizing LLM-guided open-ended instruction relabeling to enhance instruction-following reinforcement learning.
- Abstract(参考訳): 強化学習における効果的な指導追従ポリシーの開発は、広範囲な人間ラベル付き指導データセットへの依存と、まばらな報酬から学ぶことの難しさにより、いまだに困難である。
本稿では,大規模言語モデル(LLM)の能力を生かして,以前収集したエージェントトラジェクトリを振り返ってオープンエンド命令を自動生成する手法を提案する。
我々の中核となる考え方は、エージェントが暗黙的に達成した意味のあるサブタスクを識別し、エージェントのトレーニングデータを強化し、人間のアノテーションへの依存を著しく軽減することで、LSMを成功に導くことである。
このオープンエンドの命令延長により、単一ポリシー内で多様なタスクを処理できる統一的な命令追従ポリシーを効率よく学習する。
我々は,本提案手法を課題であるCraftax環境において実証的に評価し,最先端のベースラインと比較して,サンプル効率,命令カバレッジ,全体的な政策性能の明確な改善を実証した。
本研究は,LLM誘導型オープンエンド・インストラクション・レザベリングによる強化学習の有効性を強調した。
関連論文リスト
- Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。