論文の概要: MTA: Multimodal Task Alignment for BEV Perception and Captioning
- arxiv url: http://arxiv.org/abs/2411.10639v1
- Date: Sat, 16 Nov 2024 00:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:36:33.074429
- Title: MTA: Multimodal Task Alignment for BEV Perception and Captioning
- Title(参考訳): MTA:BEVの認識とキャプションのためのマルチモーダルタスクアライメント
- Authors: Yunsheng Ma, Burhaneddin Yaman, Xin Ye, Feng Tao, Abhirup Mallik, Ziran Wang, Liu Ren,
- Abstract要約: Bird's Eye View (BEV)ベースの3D知覚は、自律運転アプリケーションにおいて重要な役割を果たす。
既存のアプローチでは、認識とキャプションを別々のタスクとして扱い、タスクの1つだけのパフォーマンスに焦点を当てている。
我々は,BEVの知覚とキャプションの双方を促進する,新しいマルチモーダルタスクアライメントフレームワークであるMTAを紹介する。
- 参考スコア(独自算出の注目度): 13.82751518921778
- License:
- Abstract: Bird's eye view (BEV)-based 3D perception plays a crucial role in autonomous driving applications. The rise of large language models has spurred interest in BEV-based captioning to understand object behavior in the surrounding environment. However, existing approaches treat perception and captioning as separate tasks, focusing on the performance of only one of the tasks and overlooking the potential benefits of multimodal alignment. To bridge this gap between modalities, we introduce MTA, a novel multimodal task alignment framework that boosts both BEV perception and captioning. MTA consists of two key components: (1) BEV-Language Alignment (BLA), a contextual learning mechanism that aligns the BEV scene representations with ground-truth language representations, and (2) Detection-Captioning Alignment (DCA), a cross-modal prompting mechanism that aligns detection and captioning outputs. MTA integrates into state-of-the-art baselines during training, adding no extra computational complexity at runtime. Extensive experiments on the nuScenes and TOD3Cap datasets show that MTA significantly outperforms state-of-the-art baselines, achieving a 4.9% improvement in perception and a 9.2% improvement in captioning. These results underscore the effectiveness of unified alignment in reconciling BEV-based perception and captioning.
- Abstract(参考訳): Bird's Eye View (BEV)ベースの3D知覚は、自律運転アプリケーションにおいて重要な役割を果たす。
大規模言語モデルの台頭は、周囲の環境における物体の挙動を理解するために、BEVベースのキャプションへの関心を喚起している。
しかし、既存のアプローチでは、認識とキャプションを個別のタスクとして扱い、タスクの1つだけのパフォーマンスに注目し、マルチモーダルアライメントの潜在的なメリットを見越す。
このようなモダリティのギャップを埋めるために,BEVの認識とキャプションの双方を増強する,新しいマルチモーダルタスクアライメントフレームワークであるMTAを導入する。
MTAは,(1)BEV-Language Alignment (BLA) と(2)BEVシーン表現を接地構造言語表現と整列する文脈学習機構,(2)DCA(Deception-Captioning Alignment) の2つの重要な構成要素から構成される。
MTAは、トレーニング中に最先端のベースラインに統合され、実行時に余分な計算複雑性を追加しない。
nuScenesとTOD3Capデータセットの大規模な実験により、MTAは最先端のベースラインを著しく上回り、知覚が4.9%改善し、キャプションが9.2%改善した。
これらの結果は,BEVに基づく知覚とキャプションの整合における統合アライメントの有効性を裏付けるものである。
関連論文リスト
- MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation [14.67253585778639]
MaskBEVは、マスキングによるマルチタスク学習パラダイムである。
3Dオブジェクトの検出と鳥の目視(BEV)マップのセグメンテーションを統一する。
3Dオブジェクト検出の1.3 NDS改善とBEVマップセグメンテーションの2.7 mIoU改善を実現している。
論文 参考訳(メタデータ) (2024-08-17T07:11:38Z) - LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping [23.366388601110913]
本稿では,FV画像からセマンティックなBEVマップをラベル効率よく生成するための,教師なし表現学習手法を提案する。
提案手法は,2つの解離したニューラルパスを教師なし方式で,シーン幾何学とシーン意味論を独立に推論するために,ネットワークを事前訓練する。
本研究では,FV画像の空間的・時間的整合性を利用して,シーン表現を符号化する新しい時間的マスク付きオートエンコーダの定式化に依存しながら,シーン形状を学習する。
論文 参考訳(メタデータ) (2024-05-29T08:03:36Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving [46.84729450920804]
本稿では,BEV-TSRフレームワークを提案する。BEV-TSRフレームワークは,バードアイビュー空間内の対応するシーンを検索するために,記述テキストを入力として利用する。
我々は,大言語モデル(LLM)を用いてテキスト入力の意味的特徴を抽出し,知識グラフの埋め込みを取り入れ,言語埋め込みの意味的豊かさを高める。
マルチレベルnuScenes-Retrievalの実験結果によると、BEV-TSRは、例えば85.78%と87.66%のトップ1の精度をシーン・トゥ・テキスト・ツー・シーンで達成している。
論文 参考訳(メタデータ) (2024-01-02T06:56:23Z) - Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving [23.957306230979746]
Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための視覚言語モデルインターフェースである。
汎用言語とビジョンモデルにおける最近の進歩と、BEV構造化マップ表現を融合させる。
本研究では,多数のシーン理解タスクにおいて,Talk2BEVを広範囲に評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:51Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。