論文の概要: When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
- arxiv url: http://arxiv.org/abs/2503.07588v2
- Date: Tue, 25 Mar 2025 15:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:55.772236
- Title: When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
- Title(参考訳): 大型ビジョンランゲージモデルが大型リモートセンシング画像と出会う:粗いテキストガイドトケンプルーニング
- Authors: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li,
- Abstract要約: LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
- 参考スコア(独自算出の注目度): 31.696397337675847
- License:
- Abstract: Efficient vision-language understanding of large Remote Sensing Images (RSIs) is meaningful but challenging. Current Large Vision-Language Models (LVLMs) typically employ limited pre-defined grids to process images, leading to information loss when handling gigapixel RSIs. Conversely, using unlimited grids significantly increases computational costs. To preserve image details while reducing computational complexity, we propose a text-guided token pruning method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i) a Region Focus Module (RFM) that leverages text-aware region localization capability to identify critical vision tokens, and (ii) a coarse-to-fine image tile selection and vision token pruning strategy based on DIP, which is guided by RFM outputs and avoids directly processing the entire large imagery. Additionally, existing benchmarks for evaluating LVLMs' perception ability on large RSI suffer from limited question diversity and constrained image sizes. We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs across 8 categories, with image length up to 27,328 pixels. Our method outperforms existing high-resolution strategies on four datasets using the same data. Moreover, compared to existing token reduction methods, our approach demonstrates higher efficiency under high-resolution settings. Dataset and code are in https://github.com/VisionXLab/LRS-VQA.
- Abstract(参考訳): 大規模なリモートセンシング画像(RSI)の視覚言語による効率的な理解は有意義だが難しい。
現在のLVLM(Large Vision-Language Models)は、画像を処理するために定義済みの限られたグリッドを使用する。
逆に、無制限グリッドを使用すると、計算コストが大幅に増加する。
計算複雑性を低減しつつ画像の詳細を保存するために,動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
我々の方法が紹介する。
i) テキスト認識型領域ローカライゼーション機能を活用して重要な視覚トークンを識別する領域フォーカスモジュール(RFM)
(II) RFM出力で導かれるDIPに基づく粗い画像タイル選択と視覚トークンプルーニング戦略により、大画像全体を直接処理するのを避ける。
さらに、LVLMの大規模RSIに対する知覚能力を評価するための既存のベンチマークは、限定された質問の多様性と制約された画像サイズに悩まされている。
画像長27,328ピクセルの8カテゴリにわたる7,333のQAペアを含むRS-VQAという新しいベンチマークを構築した。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
さらに,既存のトークン低減手法と比較して,高解像度設定下での高効率性を示す。
データセットとコードはhttps://github.com/VisionXLab/LRS-VQA.comにある。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing [32.85223015863783]
GeoPixelは、ピクセルレベルのグラウンド化をサポートするエンドツーエンドの高解像度RS-LMMである。
任意のアスペクト比で最大4K HD解像度をサポートし、高精度RS画像解析に最適である。
GeoPixelはピクセルレベルの理解において優れた性能を示し、単一ターゲットとマルチターゲットのセグメンテーションタスクの両方において既存のLMMを上回っている。
論文 参考訳(メタデータ) (2025-01-23T18:59:30Z) - Enhancing Ultra High Resolution Remote Sensing Imagery Analysis with ImageRAG [24.342190878813234]
ImageRAG for RSは、UHRリモートセンシング画像の解析の複雑さに対処する、トレーニング不要のフレームワークである。
ImageRAGのコアイノベーションは、UHRイメージの最も関連性の高い部分を視覚的コンテキストとして選択的に検索し、焦点を合わせる能力にある。
論文 参考訳(メタデータ) (2024-11-12T10:12:12Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Transcending the Limit of Local Window: Advanced Super-Resolution
Transformer with Adaptive Token Dictionary [30.506135273928596]
Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。
SR変換器にアダプティブトークン辞書群を導入し,ATD-SR法を確立する。
提案手法は, 様々な画像超解像ベンチマークにおいて, 最高の性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T08:50:44Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文 参考訳(メタデータ) (2023-09-16T08:12:12Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing
Data [14.742224345061487]
リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題について紹介する。
RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。
本研究では,RSVGの大規模ベンチマークデータセットを構築し,RSVGタスクのディープラーニングモデルについて検討する。
論文 参考訳(メタデータ) (2022-10-23T07:08:22Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。