論文の概要: VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making
- arxiv url: http://arxiv.org/abs/2410.15885v2
- Date: Thu, 21 Aug 2025 02:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 14:03:17.009477
- Title: VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making
- Title(参考訳): VLASCD: 同時チャットと意思決定のための視覚言語行動モデル
- Authors: Zuojin Tang, Bin Hu, Chenyang Zhao, De Ma, Gang Pan, Bin Liu,
- Abstract要約: そこで我々は,視覚言語行動モデル(Visual Language Action Model)と呼ばれる並列マルチタスク出力機能を備えた統合学習モデルを提案する。
CARLA自動運転プラットフォーム上でのモデルの評価を行った。
- 参考スコア(独自算出の注目度): 14.599617146656335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although current mainstream pre-trained large models, such as LLM models represented by ChatGPT and VLA models represented by OpenVLA, have achieved significant progress in multimodal tasks through a "Multiple-Input, Single-Output" (MISO) architecture. However, our investigation reveals that the MISO architecture exhibits fundamental limitations in "Multiple-Input, Multiple-Output" (MIMO) (e.g., parallel multi-tasks output processing): the architecture generates task mutual exclusion effects, leading to resource contention among different tasks when sharing output channels, and consequently resulting in optimization imbalance and performance degradation. In contrast, human MIMO processing inherently enables concurrent task execution (e.g., while dialogue and decision-making) without interference. Inspired by this, in this work, we propose a unified MIMO training model with parallel multi-tasks output capabilities termed Visual Language Action Model for Simultaneously Chatting and Decision Making. We refer to this method as VLASCD or MIMO-VLA, and in the following, we will use these two names interchangeably. We evaluate the model on the CARLA autonomous driving platform. The results show that, compared to LLM models with MISO dialogue capabilities, reinforcement learning models, and VLA models with MISO decision-making capabilities, MIMO-VLA significantly outperforms existing MISO models in simultaneously handling dialogue generation and decision-making tasks within the MIMO scenario.
- Abstract(参考訳): 現在、ChatGPTで表されるLLMモデルやOpenVLAで表されるVLAモデルのような訓練済みの大規模モデルは、"Multiple-Input, Single-Output" (MISO)アーキテクチャを通じて、マルチモーダルタスクにおいて大きな進歩を遂げている。
しかし,本研究では,MISO アーキテクチャが "Multiple-Input, Multiple-Output" (MIMO) の基本的制約(例えば並列マルチタスク出力処理)を示すことを明らかにした。
対照的に、ヒューマンMIMO処理は本質的に干渉なく同時タスク実行(対話や意思決定など)を可能にする。
そこで本研究では,視覚言語行動モデル(Visual Language Action Model)と呼ばれる並列マルチタスク出力機能を備えたMIMOトレーニングモデルを提案する。
本手法を VLASCD あるいは MIMO-VLA と呼び,以下の2つの名称を相互に使用する。
CARLA自動運転プラットフォーム上でのモデルの評価を行った。
その結果、MIMO-VLAは、MISO対話機能付きLLMモデル、強化学習モデル、MISO意思決定機能付きVLAモデルと比較して、MIMOシナリオ内での対話生成と意思決定タスクの同時処理において、既存のMISOモデルよりも大幅に優れていた。
関連論文リスト
- dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models [70.59376970630387]
本稿では,モノリシックなマルチモーダル大言語モデル(MLLM)について述べる。
モノリシックMLLMの既存の構造と事前学習戦略は不安定な最適化と破滅的な忘れ込みに悩まされることが多い。
これらの課題に対処するために、我々は、新しい視覚パラメータ空間を事前訓練されたLLMに組み込むことで、デルタチューニングによるノイズの多いデータから視覚知識の安定した学習を可能にする。
論文 参考訳(メタデータ) (2025-07-16T18:31:23Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.84458417662404]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving [6.728693243652425]
大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。
我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-03T11:05:14Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。