論文の概要: Ego-centric Learning of Communicative World Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.08149v1
- Date: Mon, 09 Jun 2025 18:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.468387
- Title: Ego-centric Learning of Communicative World Models for Autonomous Driving
- Title(参考訳): 自動運転のためのコミュニケーション世界モデルのエゴ中心学習
- Authors: Hang Wang, Dechen Gao, Junshan Zhang,
- Abstract要約: 自律運転などの複雑な高次元環境におけるタスクに対するマルチエージェント強化学習(MARL)について検討する。
本研究では,その潜在表現とともに世界モデルに具現化された生成AIを利用することで,CALL,下線コミュニクアンダーライン型Worunderlineld Modeunderlinelを開発した。
- 参考スコア(独自算出の注目度): 31.66608520780982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study multi-agent reinforcement learning (MARL) for tasks in complex high-dimensional environments, such as autonomous driving. MARL is known to suffer from the \textit{partial observability} and \textit{non-stationarity} issues. To tackle these challenges, information sharing is often employed, which however faces major hurdles in practice, including overwhelming communication overhead and scalability concerns. By making use of generative AI embodied in world model together with its latent representation, we develop {\it CALL}, \underline{C}ommunic\underline{a}tive Wor\underline{l}d Mode\underline{l}, for MARL, where 1) each agent first learns its world model that encodes its state and intention into low-dimensional latent representation with smaller memory footprint, which can be shared with other agents of interest via lightweight communication; and 2) each agent carries out ego-centric learning while exploiting lightweight information sharing to enrich her world model, and then exploits its generalization capacity to improve prediction for better planning. We characterize the gain on the prediction accuracy from the information sharing and its impact on performance gap. Extensive experiments are carried out on the challenging local trajectory planning tasks in the CARLA platform to demonstrate the performance gains of using \textit{CALL}.
- Abstract(参考訳): 自律運転のような複雑な高次元環境におけるタスクに対するマルチエージェント強化学習(MARL)について検討する。
MARL は \textit{partial observability} と \textit{non-stationarity} の問題に悩まされていることが知られている。
これらの課題に対処するためには、情報共有がよく使われるが、通信オーバーヘッドやスケーラビリティの問題など、実際には大きなハードルに直面している。
MARLでは、その潜在表現とともに世界モデルに具現化される生成AIを利用することで、生成AIをMARL向けに開発する。
1) 各エージェントは、まず、その状態と意図を、より少ないメモリフットプリントで低次元の潜在表現にエンコードする世界モデルを学ぶ。
2)各エージェントは,エゴ中心の学習を行い,軽量な情報共有を活用して世界モデルを充実させ,その一般化能力を活用してより良い計画を立てる。
情報共有による予測精度の向上とその性能ギャップへの影響を特徴付ける。
CARLAプラットフォームにおける局所軌道計画タスクにおいて, textit{CALL}の使用による性能向上を示すため, 大規模な実験を行った。
関連論文リスト
- AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents [18.369668601864575]
AriGraphは、環境を探索しながら意味記憶とエピソード記憶を統合するメモリグラフである。
我々は,Ariadne LLMエージェントが対話型テキストゲーム環境における複雑なタスクを,人間プレイヤーでも効果的に処理できることを実証した。
論文 参考訳(メタデータ) (2024-07-05T09:06:47Z) - Agent Planning with World Knowledge Model [88.4897773735576]
エージェント計画を容易にするためにパラメトリック世界知識モデル(WKM)を導入する。
我々はWKMを開発し,グローバルプランニングと動的状態知識を指導し,地域プランニングを支援する。
本手法は, 各種の強靭なベースラインと比較して, 優れた性能が得られる。
論文 参考訳(メタデータ) (2024-05-23T06:03:19Z) - LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models
via MoE-Style Plugin [85.16356890023582]
ルータネットワークを用いてローランクアダプタ(LoRA)を複数導入し,それらを統合する新しいフレームワークであるLoRAMoEを提案する。
バックボーンモデルを凍結し、LoRAの一部をダウンストリームタスクの解決に世界の知識を活用することに集中させます。
実験の結果、命令データが増加するにつれて、LoRAMoEは下流タスクの処理能力を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:45:06Z) - MABL: Bi-Level Latent-Variable World Model for Sample-Efficient
Multi-Agent Reinforcement Learning [43.30657890400801]
本稿では,2レベル潜在変数世界モデルを高次元入力から学習するモデルベースMARLアルゴリズムMABLを提案する。
各エージェントについて、MABLは、上位レベルにおけるグローバル潜伏状態を学び、下位レベルにおけるエージェント潜伏状態の学習を知らせるために使用される。
MaBLは、サンプル効率と全体的な性能の両方において、SOTAのマルチエージェント潜在変数世界モデルを上回っている。
論文 参考訳(メタデータ) (2023-04-12T17:46:23Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - MOOCRep: A Unified Pre-trained Embedding of MOOC Entities [4.0963355240233446]
我々はMOOCの構造から豊富なラベルのないデータを用いてMOOCエンティティの事前訓練された表現を学習することを提案する。
実験の結果,MOOCRepの埋め込みは,教育コミュニティにとって重要な2つの課題において,最先端の表現学習方法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-12T00:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。