論文の概要: A Vision-Language Framework for Multispectral Scene Representation Using Language-Grounded Features
- arxiv url: http://arxiv.org/abs/2501.10144v1
- Date: Fri, 17 Jan 2025 12:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:34.607266
- Title: A Vision-Language Framework for Multispectral Scene Representation Using Language-Grounded Features
- Title(参考訳): 言語周辺特徴を用いたマルチスペクトルシーン表現のための視覚言語フレームワーク
- Authors: Enes Karanfil, Nevrez Imamoglu, Erkut Erdem, Aykut Erdem,
- Abstract要約: 本稿では、マルチスペクトルデータと視覚言語アライメント技術を統合し、シーンの表現と記述を向上させる、Spectral LLaVAというビジョン言語フレームワークを提案する。
我々の結果は、特にRGBデータだけでは不十分なシナリオにおいて、Spectral LLaVAが詳細で正確な記述を生成する能力を強調した。
- 参考スコア(独自算出の注目度): 15.700048595212051
- License:
- Abstract: Scene understanding in remote sensing often faces challenges in generating accurate representations for complex environments such as various land use areas or coastal regions, which may also include snow, clouds, or haze. To address this, we present a vision-language framework named Spectral LLaVA, which integrates multispectral data with vision-language alignment techniques to enhance scene representation and description. Using the BigEarthNet v2 dataset from Sentinel-2, we establish a baseline with RGB-based scene descriptions and further demonstrate substantial improvements through the incorporation of multispectral information. Our framework optimizes a lightweight linear projection layer for alignment while keeping the vision backbone of SpectralGPT frozen. Our experiments encompass scene classification using linear probing and language modeling for jointly performing scene classification and description generation. Our results highlight Spectral LLaVA's ability to produce detailed and accurate descriptions, particularly for scenarios where RGB data alone proves inadequate, while also enhancing classification performance by refining SpectralGPT features into semantically meaningful representations.
- Abstract(参考訳): リモートセンシングのシーン理解は、様々な土地利用地域や沿岸地域といった複雑な環境の正確な表現を生成する上で、雪や雲、迷路を含むような課題に直面していることが多い。
これを解決するために,マルチスペクトルデータと視覚言語アライメント技術を統合し,シーンの表現と記述を向上するSpectral LLaVAというビジョン言語フレームワークを提案する。
Sentinel-2 の BigEarthNet v2 データセットを用いて,RGB ベースのシーン記述によるベースラインを構築し,マルチスペクトル情報の導入による大幅な改善を実証する。
我々のフレームワークは、SpectralGPTのビジョンバックボーンを凍結させながら、アライメントのための軽量な線形投影層を最適化する。
実験では,線形探索と言語モデルを用いたシーン分類を併用して,シーン分類と記述生成を共同で行う。
以上の結果から,RGBデータだけでは不十分である場合や,Spectral GPT機能を意味のある表現に書き換えることによる分類性能の向上など,詳細な記述や正確な記述を行うことのできるSpectral LLaVAの機能を強調した。
関連論文リスト
- SpectralGaussians: Semantic, spectral 3D Gaussian splatting for multi-spectral scene representation, visualization and analysis [3.8834382997684087]
3次元ガウススプラッティングに基づく新しいクロススペクトルレンダリングフレームワーク(3DGS)を提案する。
このフレームワークは、登録されたマルチビュースペクトルとセグメンテーションマップから、現実的で意味のあるスプラットを生成する。
コントリビューションはマルチスペクトルシーン表現、レンダリング、編集における課題に対処し、多様なアプリケーションに新たな可能性を提供します。
論文 参考訳(メタデータ) (2024-08-13T15:32:54Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - A generic self-supervised learning (SSL) framework for representation
learning from spectra-spatial feature of unlabeled remote sensing imagery [4.397725469518669]
自己教師付き学習(SSL)では、モデルが桁違いに遅延のないデータから表現を学習することができる。
この研究は、未ラベルデータのスペクトル空間情報の両方から表現を学習できる新しいSSLフレームワークを設計した。
論文 参考訳(メタデータ) (2023-06-27T23:50:43Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Multi-Granularity Canonical Appearance Pooling for Remote Sensing Scene
Classification [0.34376560669160383]
リモートセンシングデータセットの潜在存在論的構造を自動的に捉えるために,新しいMG-CAP(Multi-Granularity Canonical Appearance Pooling)を提案する。
それぞれの特定の粒度に対して,事前定義された変換の集合から標準的外観を発見し,最大化に基づくシームズスタイルアーキテクチャを用いて対応するCNN特徴を学習する。
本稿では,GPUの固有値分解関数(EIG)を学習し,行列計算によるバックプロパゲーションを実証する安定解を提案する。
論文 参考訳(メタデータ) (2020-04-09T11:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。