論文の概要: Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment
- arxiv url: http://arxiv.org/abs/2509.22697v1
- Date: Sat, 20 Sep 2025 23:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.801484
- Title: Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment
- Title(参考訳): 効率的なマルチモーダルアライメントのためのテキストプロンプトによるハイパースペクトル画像の学習
- Authors: Abhiroop Chatterjee, Susmita Ghosh,
- Abstract要約: 我々は、CLIPスタイルのコントラストトレーニングフレームワークを利用して、超スペクトルシーン理解のための視覚言語モデル(VLM)の最適化を試みる。
我々のフレームワークは、視覚バックボーンから凍結した大きな埋め込みモデルの潜在空間へのボクセルレベルの埋め込みをマッピングする。
提案手法は全パラメータの0.07パーセントしか更新していないが、最先端の性能が得られる。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As data requirements continue to grow, efficient learning increasingly depends on the curation and distillation of high-value data rather than brute-force scaling of model sizes. In the case of a hyperspectral image (HSI), the challenge is amplified by the high-dimensional 3D voxel structure, where each spatial location is associated with hundreds of contiguous spectral channels. While vision and language models have been optimized effectively for natural image or text tasks, their cross-modal alignment in the hyperspectral domain remains an open and underexplored problem. In this article, we make an attempt to optimize a Vision-Language Model (VLM) for hyperspectral scene understanding by exploiting a CLIP-style contrastive training framework. Our framework maps voxel-level embeddings from a vision backbone onto the latent space of a frozen large embedding model (LEM), where a trainable probe aligns vision features with the model's textual token representations. The two modalities are aligned via a contrastive loss restricted to a curated set of hard (closest wrong classes) and semi-hard (random distractors) negatives, along with positive pairs. To further enhance alignment, descriptive prompts that encode class semantics are introduced and act as structured anchors for the HSI embeddings. It is seen that the proposed method updates only 0.07 percent of the total parameters, yet yields state-of-the-art performance. For example, on Indian Pines (IP) the model produces better results over unimodal and multimodal baselines by +0.92 Overall Accuracy (OA) and +1.60 Kappa ($\kappa$), while on Pavia University (PU) data it provides gains of +0.69 OA and +0.90 $\kappa$. Moreover, this is achieved with the set of parameters, nearly 50$\times$ smaller than DCTN and 90$\times$ smaller than SS-TMNet.
- Abstract(参考訳): データ要求が増加し続けるにつれて、効率的な学習は、モデルサイズのブルートフォーススケーリングよりも、高価値データのキュレーションと蒸留に依存している。
ハイパースペクトル画像(HSI)の場合、この課題は高次元の3次元ボクセル構造によって増幅され、各空間位置は数百の連続スペクトルチャネルに関連付けられている。
視覚と言語モデルは、自然画像やテキストタスクに効果的に最適化されているが、ハイパースペクトル領域におけるそれらのクロスモーダルアライメントは、未解明の未解決の問題のままである。
本稿では、CLIPスタイルのコントラストトレーニングフレームワークを利用して、超スペクトルシーン理解のための視覚言語モデル(VLM)の最適化を試みる。
我々のフレームワークは、視覚バックボーンから冷凍大型埋め込みモデル(LEM)の潜在空間へのボクセルレベルの埋め込みをマッピングする。
2つのモダリティは、正のペアとともに、硬化したハード(最も間違ったクラス)とセミハード(ランダムな散逸)の負の集合に制限された対照的な損失によって整列される。
さらにアライメントを強化するために、クラスセマンティクスをエンコードし、HSI埋め込みの構造化アンカーとして機能する記述的プロンプトが導入された。
提案手法は全パラメータの0.07パーセントしか更新していないが、最先端の性能が得られる。
例えば、Indian Pines (IP) では、このモデルは、OA(OA)と+1.60 Kappa(Kappa)(Kappa$)の単調およびマルチモーダルベースラインよりも良い結果をもたらすが、Pavia University (PU) のデータでは、+0.69 OAと+0.90 $\kappa$の利得を提供する。
さらに、パラメータセットは DCTN よりも 50$\times$ 小さく、SS-TMNet より 90$\times$ 小さい。
関連論文リスト
- FG-CLIP: Fine-Grained Visual and Textual Alignment [3.830067625507938]
本稿では,3つの重要なイノベーションを通じて微細な理解を深めるファイングラインドCLIPを提案する。
我々は、大容量マルチモーダルモデルを用いて、世界レベルのセマンティックディテールをキャプチャするために、160億の長いキャプションイメージペアを生成する。
我々は、高品質な領域固有のアノテーションと、きめ細かい負のサンプルを統合することで、FinHARDと呼ばれる包括的データセットを構築した。
論文 参考訳(メタデータ) (2025-05-08T09:06:53Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。