論文の概要: EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.05553v1
- Date: Mon, 03 Nov 2025 10:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.43086
- Title: EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning
- Title(参考訳): EVLP:強化超微細調整による統一型視覚ランゲージプランナの学習
- Authors: Xinyan Cai, Shiguang Wu, Dafeng Chi, Yuzheng Zhuang, Xingyue Quan, Jianye Hao, Qiang Guan,
- Abstract要約: 現在の手法では、マルチモーダルプランニングに統一された生成フレームワークを採用できないため、マルチモーダルプランニングでは矛盾する。
提案手法は,動的事前学習と強化アライメントを取り入れた新しいトレーニングパイプラインにより,長期タスクのマルチモーダル計画を実現する。
- 参考スコア(独自算出の注目度): 44.254412516852874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In complex embodied long-horizon manipulation tasks, effective task decomposition and execution require synergistic integration of textual logical reasoning and visual-spatial imagination to ensure efficient and accurate operation. Current methods fail to adopt a unified generation framework for multimodal planning, lead to inconsistent in multimodal planning. To address this challenge, we present \textbf{EVLP (Embodied Vision-Language Planner)}, an innovative multimodal unified generation framework that jointly models linguistic reasoning and visual generation. Our approach achieves multimodal planning for long-horizon tasks through a novel training pipeline incorporating dynamic pretraining and reinforced alignment. Our core innovations consist of three key components: \textbf{1) Unified Multimodal Generation Framework}: For understanding, We integrate semantic information with spatial features to provide comprehensive visual perception. For generation, we directly learn the joint distribution of discrete images for one-step visual synthesis, enabling coordinated language-visual modeling through learnable cross-modal attention mechanisms. \textbf{2) Dynamic Perception Pretraining}: We propose a bidirectional dynamic alignment strategy employing inverse dynamics tasks and forward dynamics tasks, effectively strengthening multimodal correlations within a unified feature space. \textbf{3) Reinforced Supervised Fine-Tuning}: While conducting instruction-based fine-tuning in the unified generation space, we construct a reinforce loss to align the spatial logic between textual actions and generated images, enabling the model to acquire spatio-awared multimodal planning capabilities.
- Abstract(参考訳): 複雑なエンボディード・ロングホライゾン操作タスクでは、効率的なタスク分解と実行は、効率的かつ正確な操作を保証するために、テキスト論理的推論と視覚空間的想像の相乗的統合を必要とする。
現在の手法では、マルチモーダルプランニングに統一された生成フレームワークを採用できないため、マルチモーダルプランニングでは矛盾する。
この課題に対処するために、言語推論と視覚生成を共同でモデル化する革新的マルチモーダル統合生成フレームワークである「textbf{EVLP(Embodied Vision-Language Planner)」を提案する。
提案手法は,動的事前学習と強化アライメントを取り入れた新しいトレーニングパイプラインにより,長期タスクのマルチモーダル計画を実現する。
我々の中核的なイノベーションは3つの重要なコンポーネントから構成されている: \textbf{1) Unified Multimodal Generation Framework}: 理解するために、我々は意味情報を空間的特徴と統合し、包括的視覚知覚を提供する。
一段階の視覚合成のための離散画像の連成分布を直接学習し、学習可能なクロスモーダルアテンション機構を通じて協調言語視覚モデリングを可能にする。
テキストbf{2) 動的知覚事前学習(Dynamic Perception Pretraining): 逆動的タスクと前方動的タスクを用いた双方向動的アライメント戦略を提案し, 統一された特徴空間内でのマルチモーダル相関を効果的に強化する。
テキストbf{3 Reinforceed Supervised Fine-Tuning}: 命令ベースファインチューニングを統一生成空間で実施する際, テキストアクションと生成された画像の間に空間論理を整合させる強化損失を構築することにより, モデルが時空間マルチモーダル計画能力を習得することを可能にする。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Training-Free Multimodal Large Language Model Orchestration [16.211979950149928]
本稿では,対話型マルチモーダルAIシステムを構築するための効果的なアプローチについて報告する。
本フレームワークは,(1)ユーザ入力を解析する中央コントローラ,(2)並列テキスト音声アーキテクチャ,(3)クロスモーダルメモリ統合という3つの重要なイノベーションに基づいて構築されている。
論文 参考訳(メタデータ) (2025-08-06T16:17:29Z) - Synergy-CLIP: Extending CLIP with Multi-modal Integration for Robust Representation Learning [2.56061946132533]
マルチモーダル表現学習を強化するために,コントラスト言語イメージ事前学習(CLIP)アーキテクチャを拡張するフレームワークであるSynergy-CLIPを提案する。
個々のモダリティをバニラCLIPに適応することに集中する既存の方法とは異なり、Synergy-CLIPは3つのモダリティにまたがる潜伏情報を等しく整列してキャプチャする。
VGG-sound+は、視覚、テキスト、音声データの等スケール表現を提供するために設計された3つのモーダルデータセットである。
論文 参考訳(メタデータ) (2025-04-30T07:14:58Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。