論文の概要: GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging
Cross-Modal Attention with Large Language Models
- arxiv url: http://arxiv.org/abs/2312.03543v1
- Date: Wed, 6 Dec 2023 15:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:36:23.912587
- Title: GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging
Cross-Modal Attention with Large Language Models
- Title(参考訳): gpt-4 自律走行のためのマルチモーダルグラウンドの強化:大規模言語モデルによるクロスモーダル注意の活用
- Authors: Haicheng Liao, Huanming Shen, Zhenning Li, Chengyue Wang, Guofa Li,
Yiming Bie, Chengzhong Xu
- Abstract要約: 本稿では,自律走行車(AV)の視覚的接地に対処する高度なエンコーダデコーダフレームワークを提案する。
我々のContext-Aware Visual Grounding(CAVG)モデルは、5つのコアエンコーダ-Text, Image, Context, Cross-Modal-をマルチモーダルデコーダと統合した高度なシステムである。
- 参考スコア(独自算出の注目度): 17.488420164181463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of autonomous vehicles (AVs), accurately discerning commander
intent and executing linguistic commands within a visual context presents a
significant challenge. This paper introduces a sophisticated encoder-decoder
framework, developed to address visual grounding in AVs.Our Context-Aware
Visual Grounding (CAVG) model is an advanced system that integrates five core
encoders-Text, Image, Context, and Cross-Modal-with a Multimodal decoder. This
integration enables the CAVG model to adeptly capture contextual semantics and
to learn human emotional features, augmented by state-of-the-art Large Language
Models (LLMs) including GPT-4. The architecture of CAVG is reinforced by the
implementation of multi-head cross-modal attention mechanisms and a
Region-Specific Dynamic (RSD) layer for attention modulation. This
architectural design enables the model to efficiently process and interpret a
range of cross-modal inputs, yielding a comprehensive understanding of the
correlation between verbal commands and corresponding visual scenes. Empirical
evaluations on the Talk2Car dataset, a real-world benchmark, demonstrate that
CAVG establishes new standards in prediction accuracy and operational
efficiency. Notably, the model exhibits exceptional performance even with
limited training data, ranging from 50% to 75% of the full dataset. This
feature highlights its effectiveness and potential for deployment in practical
AV applications. Moreover, CAVG has shown remarkable robustness and
adaptability in challenging scenarios, including long-text command
interpretation, low-light conditions, ambiguous command contexts, inclement
weather conditions, and densely populated urban environments. The code for the
proposed model is available at our Github.
- Abstract(参考訳): 自律走行車(AV)の分野では、指揮官の意図を正確に把握し、視覚的文脈内で言語コマンドを実行することが大きな課題である。
本稿では,avs.our context-aware visual grounding (cavg) モデルを用いて,マルチモーダルデコーダを用いた5つのコアエンコーダ-テキスト,画像,コンテキスト,クロスモーダルの統合を実現する,高度なエンコーダ-デコーダフレームワークを提案する。
この統合により、CAVGモデルは文脈意味論を積極的に捉え、GPT-4を含む最先端の大規模言語モデル(LLM)によって強化された人間の感情的特徴を学ぶことができる。
cavgのアーキテクチャは、マルチヘッドクロスモーダルアテンション機構と、アテンション変調のための領域特異的ダイナミック(rsd)層の実装によって強化されている。
このアーキテクチャ設計により、モデルは様々なクロスモーダル入力を効率的に処理し、解釈することができ、言語コマンドと対応する視覚シーンの相関を包括的に理解することができる。
実世界のベンチマークであるTalk2Carデータセットに関する実証的な評価は、CAVGが予測精度と運用効率の新たな標準を確立することを実証している。
特にこのモデルは、データセット全体の50%から75%まで、限られたトレーニングデータでも例外的なパフォーマンスを示す。
この機能は、実用的なAVアプリケーションへのデプロイの有効性と可能性を強調している。
さらに、CAVGは、長文コマンド解釈、低照度条件、曖昧なコマンドコンテキスト、インクレーメント気象条件、人口密度の高い都市環境など、困難なシナリオにおいて、顕著な堅牢性と適応性を示した。
提案されたモデルのコードは、githubで入手できます。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment [2.3575550107698016]
AV中心の時間的注意符号化(STAE)機構を導入し,周囲の車両との動的相互作用を学習する。
マップとルートのコンテキストを理解するために,コンテキストマップの抽出にコンテキストエンコーダを用いる。
得られたモデルは、Soft Actor Critic (SAC)アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-12T02:34:44Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models [41.64717254672843]
視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。
本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。
ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction [4.640835690336652]
マルチモーダル車軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。
本手法は,現場のエージェントが提示する社会的特徴と,身体環境の制約を考慮に入れたものである。
すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。
論文 参考訳(メタデータ) (2023-02-21T18:42:24Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。