論文の概要: VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making
- arxiv url: http://arxiv.org/abs/2410.15885v3
- Date: Mon, 25 Aug 2025 06:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 12:26:22.493658
- Title: VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making
- Title(参考訳): VLASCD: 同時チャットと意思決定のための視覚言語行動モデル
- Authors: Zuojin Tang, Bin Hu, Chenyang Zhao, De Ma, Gang Pan, Bin Liu,
- Abstract要約: マルチインプット・シングル・アウトプット(MISO)パラダイムは,マルチインプット・マルチ・アウトプット(MIMO)シナリオの性能を制限していることを示す。
MISOアーキテクチャでは、タスクは共有出力チャネルに競合し、不均衡な最適化と性能低下を引き起こす相互排除効果を生成する。
本稿では,同時対話生成と意思決定を併用したマルチタスク出力を実現するための統合トレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.23206299246665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large pretrained models such as LLMs (e.g., GPT series) and VLAs (e.g., OpenVLA) have achieved notable progress on multimodal tasks, yet they are built upon a multi-input single-output (MISO) paradigm. We show that this paradigm fundamentally limits performance in multi-input multi-output (MIMO) scenarios, where parallel task execution is required. In MISO architectures, tasks compete for a shared output channel, creating mutual exclusion effects that cause unbalanced optimization and degraded performance. To address this gap, we introduce MIMO-VLA (VLASCD), a unified training framework that enables concurrent multi-task outputs, exemplified by simultaneous dialogue generation and decision-making. Inspired by human cognition, MIMO-VLA eliminates interference between tasks and supports efficient parallel processing. Experiments on the CARLA autonomous driving platform demonstrate that MIMO-VLA substantially outperforms state-of-the-art MISO-based LLMs, reinforcement learning models, and VLAs in MIMO settings, establishing a new direction for multimodal and multitask learning.
- Abstract(参考訳): LLM (e g , GPT シリーズ) や VLA (e g , OpenVLA) のような近年の大規模事前学習モデルは、マルチモーダルタスクにおいて顕著な進歩を遂げているが、それらはマルチインプット・シングルアウトプット(MISO)パラダイムに基づいて構築されている。
並列タスク実行が必要なマルチインプット・マルチアウトプット(MIMO)のシナリオでは,このパラダイムが基本的に性能を制限していることを示す。
MISOアーキテクチャでは、タスクは共有出力チャネルに競合し、不均衡な最適化と性能低下を引き起こす相互排除効果を生成する。
このギャップに対処するために,同時対話生成と意思決定によるマルチタスク出力を実現する統合トレーニングフレームワークMIMO-VLA(VLASCD)を導入する。
人間の認識にインスパイアされたMIMO-VLAは、タスク間の干渉を排除し、効率的な並列処理をサポートする。
CARLA自動運転プラットフォームの実験により、MIMO-VLAはMIMO設定における最先端のMIISOベースのLLM、強化学習モデル、VLAを大幅に上回っており、マルチモーダルおよびマルチタスク学習のための新しい方向性を確立している。
関連論文リスト
- dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models [70.59376970630387]
本稿では,モノリシックなマルチモーダル大言語モデル(MLLM)について述べる。
モノリシックMLLMの既存の構造と事前学習戦略は不安定な最適化と破滅的な忘れ込みに悩まされることが多い。
これらの課題に対処するために、我々は、新しい視覚パラメータ空間を事前訓練されたLLMに組み込むことで、デルタチューニングによるノイズの多いデータから視覚知識の安定した学習を可能にする。
論文 参考訳(メタデータ) (2025-07-16T18:31:23Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.84458417662404]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving [6.728693243652425]
大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。
我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-03T11:05:14Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。