論文の概要: Multi-Task Reinforcement Learning with Language-Encoded Gated Policy Networks
- arxiv url: http://arxiv.org/abs/2510.06138v1
- Date: Tue, 07 Oct 2025 17:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.375077
- Title: Multi-Task Reinforcement Learning with Language-Encoded Gated Policy Networks
- Title(参考訳): 言語符号化ゲーテッドポリシーネットワークを用いたマルチタスク強化学習
- Authors: Rushiv Arora,
- Abstract要約: マルチタスク強化学習は、様々な目的にまたがる振る舞いを導くために、タスクメタデータに依存することが多い。
マルチタスクRLのための言語条件混合型アーキテクチャであるLexical Policy Networks (LEXPOL)を提案する。
LEXPOLはタスクメタデータをテキストエンコーダにエンコードし、学習したゲーティングモジュールを使用してサブポリティケーションを選択したりブレンドしたりする。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task reinforcement learning often relies on task metadata -- such as brief natural-language descriptions -- to guide behavior across diverse objectives. We present Lexical Policy Networks (LEXPOL), a language-conditioned mixture-of-policies architecture for multi-task RL. LEXPOL encodes task metadata with a text encoder and uses a learned gating module to select or blend among multiple sub-policies, enabling end-to-end training across tasks. On MetaWorld benchmarks, LEXPOL matches or exceeds strong multi-task baselines in success rate and sample efficiency, without task-specific retraining. To analyze the mechanism, we further study settings with fixed expert policies obtained independently of the gate and show that the learned language gate composes these experts to produce behaviors appropriate to novel task descriptions and unseen task combinations. These results indicate that natural-language metadata can effectively index and recombine reusable skills within a single policy.
- Abstract(参考訳): マルチタスク強化学習は、様々な目的にまたがる振る舞いを導くために、タスクメタデータ(例えば、簡単な自然言語記述など)に依存することが多い。
マルチタスクRLのための言語条件混合型アーキテクチャであるLexical Policy Networks (LEXPOL)を提案する。
LEXPOLはタスクメタデータをテキストエンコーダでエンコードし、学習したゲーティングモジュールを使用して複数のサブポリティヤを選択したりブレンドしたりすることで、タスク間のエンドツーエンドのトレーニングを可能にする。
MetaWorldベンチマークでは、LEXPOLはタスク固有のリトレーニングなしで、成功率とサンプル効率において、強力なマルチタスクベースラインと一致または超えている。
このメカニズムを解析するために、ゲートから独立して得られる固定された専門家ポリシーを用いて設定を更に研究し、学習言語ゲートがこれらの専門家を構成して、新しいタスク記述や未確認タスクの組み合わせに適した行動を生成することを示す。
これらの結果から, 自然言語メタデータは, 一つのポリシー内で再利用可能なスキルを効果的にインデクシングし, 再結合できることが示唆された。
関連論文リスト
- Align, Generate, Learn: A Novel Closed-Loop Framework for Cross-Lingual In-Context Learning [0.0]
言語間インコンテキスト学習(XICL)は、多言語タスクに対処するために大規模言語モデル(LLM)を活用するための変換パラダイムとして登場した。
タスク関連事例を内部的に選択・活用するために, LLMの生成能力を活用する, 自己管理型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T05:36:51Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。