論文の概要: In-Context Reinforcement Learning via Communicative World Models
- arxiv url: http://arxiv.org/abs/2508.06659v1
- Date: Fri, 08 Aug 2025 19:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.495854
- Title: In-Context Reinforcement Learning via Communicative World Models
- Title(参考訳): コミュニケーション世界モデルによるインテクスト強化学習
- Authors: Fernando Martinez-Lopez, Tao Li, Yingdong Lu, Juntao Chen,
- Abstract要約: この研究は、2エージェントの緊急通信問題としてICRLを定式化する。
これは、転送可能な通信コンテキストを学ぶフレームワークであるCORALを紹介している。
実験により,本手法により,CAが試料効率を大幅に向上できることが実証された。
- 参考スコア(独自算出の注目度): 49.00028802135605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents often struggle to generalize to new tasks and contexts without updating their parameters, mainly because their learned representations and policies are overfit to the specifics of their training environments. To boost agents' in-context RL (ICRL) ability, this work formulates ICRL as a two-agent emergent communication problem and introduces CORAL (Communicative Representation for Adaptive RL), a framework that learns a transferable communicative context by decoupling latent representation learning from control. In CORAL, an Information Agent (IA) is pre-trained as a world model on a diverse distribution of tasks. Its objective is not to maximize task reward, but to build a world model and distill its understanding into concise messages. The emergent communication protocol is shaped by a novel Causal Influence Loss, which measures the effect that the message has on the next action. During deployment, the previously trained IA serves as a fixed contextualizer for a new Control Agent (CA), which learns to solve tasks by interpreting the provided communicative context. Our experiments demonstrate that this approach enables the CA to achieve significant gains in sample efficiency and successfully perform zero-shot adaptation with the help of pre-trained IA in entirely unseen sparse-reward environments, validating the efficacy of learning a transferable communicative representation.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)エージェントは、学習された表現やポリシーがトレーニング環境の具体性に過度に適合するため、パラメータを更新することなく、新しいタスクやコンテキストに一般化するのに苦労することが多い。
エージェントのICRL(In-context RL)能力を高めるために、この研究はICLLを2エージェントの緊急通信問題として定式化し、遅延表現学習を制御から分離することで伝達可能な通信コンテキストを学習するフレームワークであるCORAL(Communicative Representation for Adaptive RL)を導入する。
コーラルでは、情報エージェント(IA)が様々なタスクの分散に関する世界モデルとして事前訓練される。
その目的は、タスク報酬の最大化ではなく、世界モデルを構築し、その理解を簡潔なメッセージに融合させることである。
創発的な通信プロトコルは、メッセージが次のアクションに与える影響を測定する新しい因果影響損失によって形成される。
デプロイ中、事前訓練されたIAは、提供された通信コンテキストを解釈することでタスクの解決を学ぶ新しい制御エージェント(CA)の固定コンテキストライザとして機能する。
実験により,本手法は, サンプル効率の大幅な向上を実現し, 全く見えないスパース・リワード環境において, 事前学習したIAの助けを借りてゼロショット適応を実現し, 伝達可能な通信表現の学習の有効性を検証した。
関連論文リスト
- Training a Generally Curious Agent [86.84089201249104]
Paprikaは、言語モデルが一般的な意思決定機能を開発することを可能にする微調整のアプローチである。
Paprika氏は、より勾配の更新をすることなく、コンテキスト内の環境フィードバックに基づいて、新しいタスクで彼らの振る舞いを探索し、適応するようにモデルに教えている。
結果は、シーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文 参考訳(メタデータ) (2025-02-24T18:56:58Z) - Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents [6.402396836189286]
本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。
視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。
実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-16T06:53:00Z) - DCMAC: Demand-aware Customized Multi-Agent Communication via Upper Bound Training [9.068971933560416]
本稿では,アッパーバウンドトレーニングを用いて理想的なポリシを得る,要求対応のカスタマイズ型マルチエージェント通信プロトコルを提案する。
実験結果から,DCMACは,制約のない,通信制約のないシナリオにおいて,ベースラインアルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-09-11T09:23:27Z) - On the Role of Emergent Communication for Social Learning in Multi-Agent
Reinforcement Learning [0.0]
社会学習は、専門家からのヒントを使って、異質なポリシーを整列し、サンプルの複雑さを減らし、部分的に観察可能なタスクを解決する。
本稿では,情報ボトルネックに基づく教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T03:23:27Z) - Universally Expressive Communication in Multi-Agent Reinforcement
Learning [6.086083595135936]
与えられた通信プロトコルが任意のポリシーを表現できるかどうかという問題を考察する。
標準のGNNアプローチは表現能力に十分制限されているため,(1)一意なエージェントIDと(2)ランダムノイズによるエージェント観察の増強を検討する。
我々は,これらの手法が普遍的に表現力のあるコミュニケーションをいかに生み出すかの理論分析を行い,同一のエージェントに対する任意の行動群を対象とすることができることを証明した。
論文 参考訳(メタデータ) (2022-06-14T11:16:33Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Common Language for Goal-Oriented Semantic Communications: A Curriculum
Learning Framework [66.81698651016444]
目標指向タスク実行を実現するための包括的セマンティックコミュニケーションフレームワークを提案する。
カリキュラム学習(CL)と強化学習(RL)を組み合わせた新しいトップダウンフレームワークを提案する。
シミュレーションの結果,提案手法は,学習中の収束時間,タスク実行時間,送信コストにおいて従来のRLよりも優れていた。
論文 参考訳(メタデータ) (2021-11-15T19:13:55Z) - Exploring Zero-Shot Emergent Communication in Embodied Multi-Agent
Populations [59.608216900601384]
本研究では,3次元環境下で関節を作動させることでコミュニケーションを学ぶエージェントについて検討する。
現実的な仮定、意図の非一様分布、共通知識エネルギーコストにおいて、これらのエージェントは新規パートナーに一般化するプロトコルを見つけることができることを示す。
論文 参考訳(メタデータ) (2020-10-29T19:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。