論文の概要: From Words to Wavelengths: VLMs for Few-Shot Multispectral Object Detection
- arxiv url: http://arxiv.org/abs/2512.15971v1
- Date: Wed, 17 Dec 2025 21:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.826354
- Title: From Words to Wavelengths: VLMs for Few-Shot Multispectral Object Detection
- Title(参考訳): 単語から波長へ:Few-Shot Multispectral Object DetectionのためのVLM
- Authors: Manuel Nkegoum, Minh-Tan Pham, Élisa Fromont, Bruno Avignon, Sébastien Lefèvre,
- Abstract要約: マルチスペクトル物体検出は、自律運転や監視といった安全に敏感なアプリケーションに不可欠である。
近年のコンピュータビジョンにおけるビジョン・ランゲージ・モデルの成功に触発されて、我々は、数発のマルチスペクトル物体検出の可能性を探る。
- 参考スコア(独自算出の注目度): 7.459632891054827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral object detection is critical for safety-sensitive applications such as autonomous driving and surveillance, where robust perception under diverse illumination conditions is essential. However, the limited availability of annotated multispectral data severely restricts the training of deep detectors. In such data-scarce scenarios, textual class information can serve as a valuable source of semantic supervision. Motivated by the recent success of Vision-Language Models (VLMs) in computer vision, we explore their potential for few-shot multispectral object detection. Specifically, we adapt two representative VLM-based detectors, Grounding DINO and YOLO-World, to handle multispectral inputs and propose an effective mechanism to integrate text, visual and thermal modalities. Through extensive experiments on two popular multispectral image benchmarks, FLIR and M3FD, we demonstrate that VLM-based detectors not only excel in few-shot regimes, significantly outperforming specialized multispectral models trained with comparable data, but also achieve competitive or superior results under fully supervised settings. Our findings reveal that the semantic priors learned by large-scale VLMs effectively transfer to unseen spectral modalities, ofFering a powerful pathway toward data-efficient multispectral perception.
- Abstract(参考訳): マルチスペクトル物体検出は、様々な照明条件下での堅牢な認識が不可欠である自律運転や監視のような安全に敏感なアプリケーションにとって重要である。
しかし、注釈付きマルチスペクトルデータの可用性の制限は、ディープ検出器のトレーニングを厳しく制限する。
このようなデータ共有のシナリオでは、テキストのクラス情報は意味的な監督の貴重な情報源として機能する。
近年のコンピュータビジョンにおけるVLM(Vision-Language Models)の成功に触発されて、我々は、数発のマルチスペクトル物体検出の可能性を探る。
具体的には、2つの代表的なVLM検出器であるGrounding DINOとYOLO-Worldを多スペクトル入力に適応させ、テキスト、ビジュアル、サーマルモダリティを統合する効果的なメカニズムを提案する。
FLIRとM3FDという2つの一般的なマルチスペクトル画像ベンチマークの広範な実験を通して、VLMベースの検出器は、数ショットのレシエーションで優れているだけでなく、比較データで訓練された特殊なマルチスペクトルモデルよりも優れており、完全に教師された設定下での競争力や優れた結果が得られることを示した。
以上の結果から,大規模VLMが学習したセマンティックな先行性は,データ効率の高いマルチスペクトル知覚への強力な道のりとして,目に見えないスペクトルモダリティに効果的に移行していることが判明した。
関連論文リスト
- MODA: The First Challenging Benchmark for Multispectral Object Detection in Aerial Images [26.48439423478357]
航空画像におけるマルチスペクトル物体検出のための最初の大規模データセット(MODA)を紹介する。
このデータセットは14,041のMSIと330,191のアノテーションで構成されている。
我々はまた、スペクトル情報と空間情報をオブジェクト認識キューに統合するフレームワークであるOSSDetを提案する。
論文 参考訳(メタデータ) (2025-12-10T10:07:06Z) - A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection [0.46040036610482665]
DGE-YOLOは、マルチモーダル情報を効果的に融合するために設計された拡張YOLOベースの検出フレームワークである。
具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。
セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
論文 参考訳(メタデータ) (2025-06-29T14:19:18Z) - DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models [11.34839442803445]
道路利用者を対象とした多クラス協調検出・追跡フレームワークを提案する。
まず,大域的空間注意融合(GSAF)モジュールを用いた検出器を提案する。
次に,視覚基盤モデルを用いた視覚的セマンティクスを活用し,IDSW(ID SWitch)エラーを効果的に低減するトラックレットRe-IDentification(REID)モジュールを提案する。
論文 参考訳(メタデータ) (2025-06-09T02:49:10Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。