論文の概要: Complex Instruction Following with Diverse Style Policies in Football Games
- arxiv url: http://arxiv.org/abs/2511.19885v1
- Date: Tue, 25 Nov 2025 03:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.259351
- Title: Complex Instruction Following with Diverse Style Policies in Football Games
- Title(参考訳): フットボール競技における多角的政策による複合的指導
- Authors: Chenglu Sun, Shuo Shen, Haonan Hu, Wei Zhou, Chen Chen,
- Abstract要約: 本稿では,複雑なシナリオに対する新しいLC-RLパラダイムであるLanguage-Controlled Diverse Style Policies (LCDSP)を紹介する。
LCDSPは、DST(Diverse Style Training)法とSI(Style Interpreter)という2つの重要なコンポーネントから構成される。
我々は,LCDSPが抽象的戦術的指示を効果的に理解し,所望の多様な行動スタイルを正確に実行することを示した。
- 参考スコア(独自算出の注目度): 11.21389682144288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advancements in language-controlled reinforcement learning (LC-RL) for basic domains and straightforward commands (e.g., object manipulation and navigation), effectively extending LC-RL to comprehend and execute high-level or abstract instructions in complex, multi-agent environments, such as football games, remains a significant challenge. To address this gap, we introduce Language-Controlled Diverse Style Policies (LCDSP), a novel LC-RL paradigm specifically designed for complex scenarios. LCDSP comprises two key components: a Diverse Style Training (DST) method and a Style Interpreter (SI). The DST method efficiently trains a single policy capable of exhibiting a wide range of diverse behaviors by modulating agent actions through style parameters (SP). The SI is designed to accurately and rapidly translate high-level language instructions into these corresponding SP. Through extensive experiments in a complex 5v5 football environment, we demonstrate that LCDSP effectively comprehends abstract tactical instructions and accurately executes the desired diverse behavioral styles, showcasing its potential for complex, real-world applications.
- Abstract(参考訳): 言語制御強化学習(LC-RL)の基本的なドメインと簡単なコマンド(例えば、オブジェクト操作やナビゲーション)の進歩にもかかわらず、LC-RLは、フットボールゲームのような複雑なマルチエージェント環境において、高レベルまたは抽象的な命令を理解・実行するために効果的に拡張されているが、依然として大きな課題である。
このギャップに対処するために、複雑なシナリオに特化して設計された新しいLC-RLパラダイムであるLanguage-Controlled Diverse Style Policies (LCDSP)を導入する。
LCDSPは、DST(Diverse Style Training)メソッドとSI(Style Interpreter)という2つの重要なコンポーネントから構成される。
DST法は、スタイルパラメータ(SP)を介してエージェントアクションを変調することにより、幅広い多様な振る舞いを示すことができる単一のポリシーを効率的に訓練する。
SIは、高水準言語命令をこれらの対応するSPに正確かつ迅速に翻訳するように設計されている。
複雑な5v5サッカー環境での広範な実験を通して、LCDSPは抽象的な戦術的指示を効果的に理解し、望まれる多様な行動スタイルを正確に実行し、複雑な実世界の応用の可能性を示す。
関連論文リスト
- TOD-ProcBench: Benchmarking Complex Instruction-Following in Task-Oriented Dialogues [42.22263009001713]
現実世界のタスク指向対話(TOD)では、エージェントは複雑な命令に厳密に従わなければならない。
既存のTODベンチマークはしばしばこれらの命令の複雑な性質を単純化する。
複雑できめ細かい制約を持つ複雑なプロセス命令を特徴とするベンチマークTOD-ProcBenchを提案する。
論文 参考訳(メタデータ) (2025-11-20T02:10:30Z) - LLM-Driven Policy Diffusion: Enhancing Generalization in Offline Reinforcement Learning [23.628360655654507]
強化学習(RL)はその強力な意思決定能力で知られ、様々な現実のシナリオに広く適用されている。
オフラインデータの制限のため、RLエージェントは新しいタスクや環境に一般化するのに苦労することが多い。
LLM-Driven Policy Diffusion (LLMDPD) は,タスク固有のプロンプトを用いたオフラインRLの一般化を促進する新しい手法である。
論文 参考訳(メタデータ) (2025-08-30T04:02:33Z) - cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending [3.939989712024268]
コンテキストMARL(cMARL)は、コンテキスト変数で環境をパラメータ化し、コンテキストに依存しないポリシーをトレーニングすることでこの問題に対処する。
既存のcMARLメソッドは、カリキュラム学習を使用して、文脈に依存しないポリシーを訓練し評価する。
多様性に基づくコンテキストブレンディング(cMALC-D)を用いたマルチエージェントLLM指導カリキュラム学習を提案する。
論文 参考訳(メタデータ) (2025-08-28T14:16:17Z) - The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data [50.544186914115045]
TEDUOは、シンボリック環境におけるオフライン言語条件のポリシー学習のための、新しいトレーニングパイプラインである。
まず、オフラインデータセットをよりリッチなアノテーションで拡張する自動化ツールとして、次に、一般化可能な命令フォローエージェントとして使用します。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Controllable Navigation Instruction Generation with Chain of Thought Prompting [74.34604350917273]
本稿では,C-インストラクタを提案する。C-インストラクタは,スタイル制御およびコンテンツ制御可能な命令生成のために,チェーン・オブ・シンクタスタイルのプロンプトを利用する。
C-インストラクタは生成した命令をより追従しやすくし、ランドマークオブジェクトの操作に対する制御性を高める。
論文 参考訳(メタデータ) (2024-07-10T07:37:20Z) - From Complex to Simple: Enhancing Multi-Constraint Complex Instruction Following Ability of Large Language Models [43.869374263102934]
複雑な制約の強化に有効なトレーニングデータについて検討する。
複数の制約を含む命令でLLMを訓練することで、複雑な命令の理解が促進されることが判明した。
提案手法は,汎用的な命令に従うモデルの能力を向上し,ドメイン外,ドメイン内,対向的な設定で効果的に一般化する。
論文 参考訳(メタデータ) (2024-04-24T12:51:14Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。