論文の概要: Unlocking Multi-Spectral Data for Multi-Modal Models with Guided Inputs and Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2604.21032v1
- Date: Wed, 22 Apr 2026 19:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.152356
- Title: Unlocking Multi-Spectral Data for Multi-Modal Models with Guided Inputs and Chain-of-Thought Reasoning
- Title(参考訳): 誘導入力とチェーン・オブ・ソート推論を持つマルチモーダルモデルのためのマルチスペクトルデータのアンロック
- Authors: Dahun Kim, Ganesh Satish Mallya, Anelia Angelova,
- Abstract要約: マルチスペクトル画像はリモートセンシングアプリケーションにとって貴重な入力信号である。
LMM(Large Multi-modal Model)は通常、RGBイメージに基づいてトレーニングされ、RGBドメインへの適用性を制限する。
本稿では,標準RGBのみのLMMの推論パイプライン内にマルチスペクトルデータを導入する,新たなトレーニングフリーアプローチを提案する。
- 参考スコア(独自算出の注目度): 21.749879619777687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-spectral imagery is a valuable input signal for Remote Sensing applications, such as land-use and land-cover classification and environmental monitoring. However, generalist Large Multi-modal Models (LMMs) are typically trained on RGB images, limiting their applicability to the RGB domain. At the same time, training multi-spectral multi-modal models is expensive and produces uniquely specialized models. To address this, we propose a novel training-free approach that introduces multi-spectral data within the inference pipeline of standard RGB-only LMMs, allowing large gains in performance. Our approach leverages the LMMs' understanding of the visual space by adapting non-RGB inputs to that space and injecting domain-specific information and Chain-of-Thought reasoning as instructions. We demonstrate this with the Gemini 2.5 model and observe strong Zero-Shot performance gains on popular Remote Sensing benchmarks. These results highlight the potential for geospatial professionals to leverage powerful generalist models for specialized sensor inputs, benefiting from rich reasoning capabilities grounded in specialized data.
- Abstract(参考訳): マルチスペクトル画像は、土地利用や土地被覆分類、環境モニタリングなどのリモートセンシングアプリケーションにとって貴重な入力信号である。
しかし、一般のLMM(Large Multi-modal Models)は一般的にRGB画像に基づいて訓練され、RGB領域への適用性が制限される。
同時に、マルチスペクトルマルチモーダルモデルのトレーニングは高価であり、ユニークな特化モデルを生成する。
そこで本研究では,標準RGBのみのLMMの推論パイプライン内にマルチスペクトルデータを導入し,性能を大幅に向上させる,新たなトレーニングフリーアプローチを提案する。
提案手法は,非RGB入力をその空間に適応させ,ドメイン固有情報やChain-of-Thought推論を指示として注入することにより,視覚空間に対するLMMの理解を活用する。
我々は、Gemini 2.5モデルでこれを実証し、人気のあるリモートセンシングベンチマークでZero-Shotのパフォーマンス向上を観測する。
これらの結果は、地理空間の専門家が、特殊なセンサー入力に強力なジェネラリストモデルを活用する可能性を強調しており、特殊なデータに基づく豊富な推論能力の恩恵を受けている。
関連論文リスト
- MMOT: The First Challenging Benchmark for Drone-based Multispectral Multi-Object Tracking [30.3437683353074]
MMOTは、ドローンベースのマルチスペクトルマルチオブジェクトトラッキングのための最初のベンチマークである。
125の動画シーケンスと8つのカテゴリにわたる488.8Kアノテーションがある。
スペクトル特徴の抽出と指向アノテーションの活用のために,マルチスペクトルおよび指向性を考慮したMOT方式を提案する。
論文 参考訳(メタデータ) (2025-10-14T14:25:17Z) - Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications [18.162960869640646]
ゼロショットのみのモードで新しいマルチスペクトルデータを導入するトレーニングフリーな手法を提案する。
我々は,土地被覆と土地利用分類のための一般的なリモートセンシングベンチマークにおけるアプローチのゼロショット性能の強い向上を観察する。
論文 参考訳(メタデータ) (2025-09-23T14:40:52Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Generalizable Multispectral Land Cover Classification via Frequency-Aware Mixture of Low-Rank Token Experts [22.75047167955269]
マルチスペクトル土地被覆分類(MLCC)の新しいアプローチであるLand-MoEを紹介する。
Land-MoEは、低ランクトークンエキスパート(MoLTE)と周波数認識フィルタ(FAF)の2つの重要なモジュールから構成される。
論文 参考訳(メタデータ) (2025-05-20T08:52:28Z) - Emergent Visual Grounding in Large Multimodal Models Without Grounding Supervision [66.40106264913082]
現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。
グラウンド化能力は、明示的なグラウンド化の監督なしに訓練されたLMMに現われることが判明した。
拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:55Z) - When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset [40.24765100535353]
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-14T09:16:49Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。