論文の概要: BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Multimodal Large Language Models and World Models
- arxiv url: http://arxiv.org/abs/2512.04513v1
- Date: Thu, 04 Dec 2025 06:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.030685
- Title: BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Multimodal Large Language Models and World Models
- Title(参考訳): BiTAgent: マルチモーダル大言語モデルと世界モデル間の双方向結合のためのタスク対応モジュールフレームワーク
- Authors: Yu-Wei Zhan, Xin Wang, Pengzhe Mao, Tongtong Feng, Ren Wang, Wenwu Zhu,
- Abstract要約: BiTAgentは、MLLMとWMの双方向結合を可能にするタスク対応動的ジョイントフレームワークである。
マルチタスクおよびクロス環境設定の広範な実験は、最先端のベースラインよりも優れた安定性と一般化を示す。
- 参考スコア(独自算出の注目度): 29.69542501690896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building generalist embodied agents requires a unified system that can interpret multimodal goals, model environment dynamics, and execute reliable actions across diverse real-world tasks. Multimodal large language models (MLLMs) offer strong semantic priors and cross-modal generalization, while world models (WMs) provide actionable latent dynamics for prediction and control. Their combination holds promise for open-ended embodied intelligence, yet introduces two key challenges: (1) establishing a tight coupling between the semantic intent from MLLMs and the dynamic state representations within the WM's latent space, and (2) achieving task-aware adaptability that supports multi-task learning and cross-environment generalization. To address these limitations, we propose BiTAgent, a task-aware dynamic joint framework that enables bidirectional coupling between MLLMs and WMs. BiTAgent establishes two complementary pathways: a forward path that injects MLLM representations into the WM's latent space for semantically guided imagination, and a backward path where WM-generated feedback refines the MLLM's semantic space via dense text-conditioned rewards. This bidirectional interaction is realized through three synergistic components: Task-Aware Dynamic Joint Learning, Task-Aware Behavior Learning, and MLLM-WM Joint Optimization, which together harmonize semantic reasoning and dynamic prediction. Extensive experiments across multi-task and cross-environment settings demonstrate superior stability and generalization over state-of-the-art baselines, marking a step toward open-ended embodied learning.
- Abstract(参考訳): 汎用的なエージェントの構築には、マルチモーダルな目標を解釈し、環境力学をモデル化し、様々な現実世界のタスクにわたって信頼できるアクションを実行する、統一されたシステムが必要である。
マルチモーダル大言語モデル(MLLM)は強力なセマンティック先行とクロスモーダル一般化を提供する一方、ワールドモデル(WM)は予測と制御のために実行可能な潜在ダイナミクスを提供する。
これらの組み合わせは,オープンエンドの具体的インテリジェンスを約束する一方で,(1)MLLMとWMの潜在空間内の動的状態表現との密結合を確立すること,(2)マルチタスク学習とクロス環境一般化をサポートするタスク認識適応性を実現すること,という2つの重要な課題を提起する。
これらの制約に対処するために,MLLMとWMの双方向結合を可能にするタスク対応動的関節フレームワークであるBiTAgentを提案する。
BiTAgentは2つの補完経路を確立している: 意味的に導かれる想像力のためにWMの潜在空間にMLLM表現を注入する前方経路と、WMの生成したフィードバックが高密度テキスト条件の報酬によってMLLMのセマンティック空間を洗練させる後方経路である。
この双方向の相互作用は3つの相乗的要素によって実現される: タスク・アウェア・ダイナミック・ジョイント・ラーニング、タスク・アウェア・ビヘイビア・ラーニング、MLLM-WMジョイント・最適化。
マルチタスクとクロス環境設定の広範な実験は、最先端のベースラインよりも優れた安定性と一般化を示し、オープンエンドの具体的学習への一歩を示している。
関連論文リスト
- OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。
AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。
MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文 参考訳(メタデータ) (2025-07-11T08:45:27Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Mixture-of-Experts Meets In-Context Reinforcement Learning [49.19791753312034]
In-context reinforcement learning (ICRL)は、下流タスクにRLエージェントを適用するための有望なパラダイムとして登場した。
本稿では,Mix-of-Experts (MoE) のアーキテクチャをトランスフォーマーに基づく決定モデルに導入する,革新的なフレームワークであるT2MIRを提案する。
本稿では,T2MIRがテキスト内学習能力を大幅に向上させ,各種ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-05T06:29:14Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Learning to Learn with Contrastive Meta-Objective [48.27877062976768]
本稿では,メタトレーニングにおけるタスクアイデンティティのさらなる監視として活用することを提案する。
提案したConMLは、対照的なメタオブジェクトの評価と最適化を行っている。
我々は、ConMLが既存のメタ学習モデルだけでなく、既存のメタ学習モデルとシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-10-08T12:22:10Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。