論文の概要: Cross-Modal Navigation with Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.06595v1
- Date: Thu, 07 May 2026 17:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.032257
- Title: Cross-Modal Navigation with Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習を用いたクロスモーダルナビゲーション
- Authors: Shuo Liu, Xinzichen Li, Christopher Amato,
- Abstract要約: 軽量なモダリティ特化エージェント間のクロスモーダルなコラボレーションは、スケーラブルなパラダイムを提供する。
我々はtextbfCross-Modal textbfNavigation のための Multi-Agent Reinforcement Learning フレームワーク textbfCRONA を提案する。
- 参考スコア(独自算出の注目度): 10.684022734054167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust embodied navigation relies on complementary sensory cues. However, high-quality and well-aligned multi-modal data is often difficult to obtain in practice. Training a monolithic model is also challenging as rich multi-modal inputs induce complex representations and substantially enlarge the policy space. Cross-modal collaboration among lightweight modality-specialized agents offers a scalable paradigm. It enables flexible deployment and parallel execution, while preserving the strength of each modality. In this paper, we propose \textbf{CRONA}, a Multi-Agent Reinforcement Learning (MARL) framework for \textbf{Cro}ss-Modal \textbf{Na}vigation. CRONA improves collaboration by leveraging control-relevant auxiliary beliefs and a centralized multi-modal critic with global state. Experiments on visual-acoustic navigation tasks show that multi-agent methods significantly improve performance and efficiency over single-agent baselines. We find that homogeneous collaboration with limited modalities is sufficient for short-range navigation under salient cues; heterogeneous collaboration among agents with complementary modalities is generally efficient and effective; and navigation in large, complex environments requires both richer multi-modal perception and increased model capacity.
- Abstract(参考訳): ロバストな具体化ナビゲーションは相補的な感覚の手がかりに依存している。
しかし、高品質で整合性の高いマルチモーダルデータは、実際に入手することがしばしば困難である。
リッチなマルチモーダル入力は複雑な表現を誘導し、ポリシー空間を大幅に拡大するので、モノリシックモデルのトレーニングも困難である。
軽量なモダリティ特化エージェント間のクロスモーダルなコラボレーションは、スケーラブルなパラダイムを提供する。
フレキシブルなデプロイメントと並列実行を可能にし、各モダリティの強度を保っている。
本稿では, マルチエージェント強化学習(MARL) フレームワークである \textbf{CRONA} を提案する。
CRONAは、コントロール関連補助的信念と、世界国家に対する集中型マルチモーダル批判を活用することで、コラボレーションを改善する。
視覚音響ナビゲーションタスクの実験では、マルチエージェント手法が単一エージェントのベースラインよりも性能と効率を大幅に向上することが示された。
また, 相補的モダリティを持つエージェント間の異種協調は概ね効率的かつ効果的であり, 大規模かつ複雑な環境でのナビゲーションには, よりリッチなマルチモーダル認識とモデルキャパシティの増大が必要である。
関連論文リスト
- MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation [12.802844514133255]
二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク
我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。
対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
論文 参考訳(メタデータ) (2026-01-16T10:09:39Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Multi-Agent Collaboration via Evolving Orchestration [55.574417128944226]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMに基づくマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し,タスク状態の進化に応じて,中央集権的なオーケストレータ("puppeteer")がエージェント("puppets")を動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models [26.459779380808587]
本稿では,Cascading Cooperative Multi-agent (CCMA) フレームワークを導入し,個別のインタラクションに RL を統合すること,地域協力に微調整のLarge Language Model (LLM) を導入すること,グローバル最適化に報奨関数を導入すること,複雑な運転シナリオをまたいだ意思決定を動的に最適化するRetrieval-augmented Generation メカニズムを提案する。
実験の結果、CCMAは既存のRL法よりも優れており、複雑な運転環境下でのマイクロレベルとマクロレベルの両方のパフォーマンスが大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-11T09:08:04Z) - Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。