論文の概要: Semantic-Geometric Dual Compression: Training-Free Visual Token Reduction for Ultra-High-Resolution Remote Sensing Understanding
- arxiv url: http://arxiv.org/abs/2604.11122v1
- Date: Mon, 13 Apr 2026 07:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.402816
- Title: Semantic-Geometric Dual Compression: Training-Free Visual Token Reduction for Ultra-High-Resolution Remote Sensing Understanding
- Title(参考訳): 超高分解能リモートセンシング理解のためのトレーニング不要な視覚トーケン低減のためのセマンティック・ジオメトリデュアル圧縮
- Authors: Yueying Li, Fengxiang Wang, Yan Li, Mingshuo Chen, Mengying Zhao, Long Lan,
- Abstract要約: タスク適応型デュアルストリームトークン圧縮フレームワークであるDualCompを提案する。
UHRリモートセンシングベンチマークであるXLRS-Benchの実験では、DualCompが極めて低い計算コストで高忠実なリモートセンシングの解釈を行うことを示した。
- 参考スコア(独自算出の注目度): 22.157897991830357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated immense potential in Earth observation. However, the massive visual tokens generated when processing Ultra-High-Resolution (UHR) imagery introduce prohibitive computational overhead, severely bottlenecking their inference efficiency. Existing visual token compression methods predominantly adopt static and uniform compression strategies, neglecting the inherent "Semantic-Geometric Duality" in remote sensing interpretation tasks. Specifically, object semantic tasks focus on the abstract semantics of objects and benefit from aggressive background pruning, whereas scene geometric tasks critically rely on the integrity of spatial topology. To address this challenge, we propose DualComp, a task-adaptive dual-stream token compression framework. Dynamically guided by a lightweight pre-trained router, DualComp decouples feature processing into two dedicated pathways. In the object semantic stream, the Spatially-Contiguous Semantic Aggregator (SCSA) utilizes size-adaptive clustering to aggregates redundant background while protecting small object. In the scene geometric stream, the Instruction-Guided Structure Recoverer (IGSR) introduces a greedy path-tracing topology completion mechanism to reconstruct spatial skeletons. Experiments on the UHR remote sensing benchmark XLRS-Bench demonstrate that DualComp accomplishes high-fidelity remote sensing interpretation at an exceptionally low computational cost, achieving simultaneous improvements in both efficiency and accuracy.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、地球観測において大きな可能性を証明している。
しかし、UHR(Ultra-High-Resolution)画像の処理時に発生する巨大な視覚トークンは、計算オーバーヘッドを禁止し、推論効率を著しくボトルネックにする。
既存の視覚トークン圧縮手法は静的および均一な圧縮戦略を採用しており、リモートセンシングの解釈タスクにおいて固有の「セマンティック・ジオメトリカル・デュナリティ」を無視している。
具体的には、オブジェクトの意味的タスクは、オブジェクトの抽象的な意味論に焦点を合わせ、攻撃的な背景プルーニングの恩恵を受ける一方で、シーン幾何学的なタスクは空間トポロジーの整合性に批判的に依存する。
この課題に対処するため,タスク適応型デュアルストリームトークン圧縮フレームワークであるDualCompを提案する。
軽量の事前訓練ルータによって動的にガイドされるDualCompは、特徴処理を2つの専用経路に分離する。
オブジェクトセマンティックストリームでは、空間的に連続したセマンティックアグリゲータ(SCSA)がサイズ適応クラスタリングを使用して、小さなオブジェクトを保護しながら冗長なバックグラウンドを集約する。
Instruction-Guided Structure Recoverer (IGSR) では、空間骨格を再構築するために、グリーディパストレーシングトポロジーの完成機構が導入されている。
UHRリモートセンシングベンチマークであるXLRS-Benchの実験では、DualCompは高忠実度リモートセンシングの解釈を極めて低い計算コストで達成し、効率と精度の両面で同時に改善することを示した。
関連論文リスト
- Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution [14.52346301984322]
拡散に基づくReal-World Image Super-Resolution (Real-ISR)は、印象的な知覚品質を実現するが、反復サンプリングによる高い計算コストに悩まされる。
本稿では,GTASR(Geometric Trajectory Alignment Super-Resolution)を提案する。
論文 参考訳(メタデータ) (2026-02-27T18:13:31Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation [8.316354570715491]
VLA(Vision-Language-Action)モデルは、Embodied AIにおいて強力なパラダイムとして登場した。
本稿では,視覚情報の効率的なタスク指向圧縮を目的とした,ハイブリッドな命令条件付きトークン圧縮フレームワークを提案する。
提案手法は,FLOPを59%,視覚トークン数を3倍以上削減しつつ,LIBEROベンチマークの競争的成功率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-24T10:06:41Z) - DualGazeNet: A Biologically Inspired Dual-Gaze Query Network for Salient Object Detection [52.32976488996896]
我々はDualGazeNetを紹介した。DualGazeNetは、純粋なトランスフォーマーフレームワークで、有能なオブジェクト検出を行う。
5つのRGBベンチマークの実験によると、DualGazeNetは25の最先端CNNとTransformerベースのメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-24T08:08:22Z) - CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs [29.08277140543501]
視覚的トークン圧縮のための新しいパラダイムであるCORE(Compact Object-centric Representation)を紹介する。
COREは効率的なセグメンテーションデコーダを利用してオブジェクトマスクを生成する。
実験により、COREは固定レート圧縮のための6つの信頼性ベンチマークに対して新しい最先端のベンチマークを確立するだけでなく、適応レート設定において劇的な効率向上を達成することが示された。
論文 参考訳(メタデータ) (2025-11-18T03:02:23Z) - SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文 参考訳(メタデータ) (2025-11-13T17:24:37Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models [25.265113510539546]
Referring Remote Sensing Imageは、リモートセンシングシーン分析のための柔軟できめ細かいフレームワークを提供する。
現在のアプローチでは、デュアルモーダル符号化、クロスモーダル相互作用、ピクセルデコーディングを含む3段階のパイプラインを使用している。
本稿では,従来のワークフローを協調的な2段階のフレームワークに再構成する疎結合パラダイム RSRefSeg 2 を提案する。
論文 参考訳(メタデータ) (2025-07-08T17:59:58Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。