論文の概要: VLC Fusion: Vision-Language Conditioned Sensor Fusion for Robust Object Detection
- arxiv url: http://arxiv.org/abs/2505.12715v1
- Date: Mon, 19 May 2025 05:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.418343
- Title: VLC Fusion: Vision-Language Conditioned Sensor Fusion for Robust Object Detection
- Title(参考訳): VLCフュージョン:ロバスト物体検出のためのビジョンランゲージ条件付きセンサフュージョン
- Authors: Aditya Taparia, Noel Ngu, Mario Leiva, Joshua Shay Kricheli, John Corcoran, Nathaniel D. Bastian, Gerardo Simari, Paulo Shakarian, Ransalu Senanayake,
- Abstract要約: 環境条件下での核融合を条件に,ビジョンランゲージ条件付き核融合(VLC Fusion)を導入する。
VLC Fusionは従来の核融合ベースラインを一貫して上回り、目に見えるシナリオと目に見えないシナリオの両方で検出精度の向上を実現している。
- 参考スコア(独自算出の注目度): 9.395806099723522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although fusing multiple sensor modalities can enhance object detection performance, existing fusion approaches often overlook subtle variations in environmental conditions and sensor inputs. As a result, they struggle to adaptively weight each modality under such variations. To address this challenge, we introduce Vision-Language Conditioned Fusion (VLC Fusion), a novel fusion framework that leverages a Vision-Language Model (VLM) to condition the fusion process on nuanced environmental cues. By capturing high-level environmental context such as as darkness, rain, and camera blurring, the VLM guides the model to dynamically adjust modality weights based on the current scene. We evaluate VLC Fusion on real-world autonomous driving and military target detection datasets that include image, LIDAR, and mid-wave infrared modalities. Our experiments show that VLC Fusion consistently outperforms conventional fusion baselines, achieving improved detection accuracy in both seen and unseen scenarios.
- Abstract(参考訳): 複数のセンサモダリティを融合させることで物体検出性能が向上するが、既存の融合手法は環境条件やセンサ入力の微妙な変化を無視することが多い。
結果として、これらの変異の下で各モダリティを適応的に重み付けするのに苦労する。
この課題に対処するために,ビジョン・ランゲージ条件付き核融合(VLC Fusion, Vision-Language Conditioned Fusion)という,ビジョン・ランゲージモデル(VLM)を利用した新たな核融合フレームワークを導入する。
暗黒、雨、カメラのぼやけなどの高レベルの環境コンテキストを捉えることで、VLMはモデルに現在のシーンに基づいてモダリティの重みを動的に調整するように誘導する。
VLC Fusionは、画像、LIDAR、ミッドウェーブ赤外線モダリティを含む実世界の自動運転および軍事目標検出データセット上で評価する。
実験の結果, VLC Fusionは従来の核融合ベースラインより一貫して優れており, 目に見えるシナリオと目に見えないシナリオの両方において検出精度が向上していることがわかった。
関連論文リスト
- CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - Quantum Inverse Contextual Vision Transformers (Q-ICVT): A New Frontier in 3D Object Detection for AVs [4.378378863689719]
我々はQuantum Inverse Contextual Vision Transformer (Q-ICVT)と呼ばれる革新的な2段階融合プロセスを開発している。
このアプローチは、量子概念における断熱計算を利用して、Global Adiabatic Transformer (GAT)として知られる新しい可逆的視覚変換器を作成する。
実験の結果,Q-ICVTはL2障害に対して82.54mAPHを実現し,現状の核融合法よりも1.88%向上した。
論文 参考訳(メタデータ) (2024-08-20T21:36:57Z) - CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions [17.216501433862014]
可視赤外スペクトルキューを統合するモダリティ画像は、オブジェクト検出のためのよりリッチな情報を提供することができる。
既存の可視赤外物体検出法は、厳しい気象条件下で著しく劣化する。
悪天候下での可視赤外物体検出について紹介する。
論文 参考訳(メタデータ) (2024-04-25T02:54:11Z) - ContextualFusion: Context-Based Multi-Sensor Fusion for 3D Object Detection in Adverse Operating Conditions [1.7537812081430004]
本研究では,3次元物体検出モデルにカメラやライダーの知識を取り入れたContextualFusionという手法を提案する。
我々の手法は、文脈バランスの取れた合成データセットの最先端手法に対して6.2%のmAP改善をもたらす。
本手法は,実世界のNuScenesデータセット上での夜間の3D対物性能を11.7%向上させる。
論文 参考訳(メタデータ) (2024-04-23T06:37:54Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文 参考訳(メタデータ) (2023-11-06T15:39:48Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。