論文の概要: Beyond GSD-as-Token: Continuous Scale Conditioning for Remote Sensing VLMs
- arxiv url: http://arxiv.org/abs/2605.07562v1
- Date: Fri, 08 May 2026 10:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.000427
- Title: Beyond GSD-as-Token: Continuous Scale Conditioning for Remote Sensing VLMs
- Title(参考訳): GSD-as-Tokenを超えて:リモートセンシングVLMのための継続的スケールコンディショニング
- Authors: Song Zhang, Yanlong Chen, Yilin Li, Yining Chen, Zili Yi, Xiaowei Zhang, Yawei Li,
- Abstract要約: リモートセンシング視覚言語モデル (RS-VLM) は、自然画像と基本的なミスマッチに直面している。
Qwen3-VL上に構築されたパラメータ効率の良い微調整フレームワークであるScaleEarthを紹介する。
CS-HLoRAは、GSD駆動ゲートを介してLoRAの低ランク部分空間を変調し、物理スケールで動的に計算をルーティングする。
- 参考スコア(独自算出の注目度): 23.02338524168884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing vision-language models (RS-VLMs) face a fundamental mismatch with natural-image counterparts: the same geographic object exhibits radically different visual evidence across ground sampling distances (GSDs) spanning multiple orders of magnitude. Yet existing RS-VLMs often discard GSD or inject it as a discrete text token, forcing a single static parameter set to absorb the entire scale spectrum. We introduce ScaleEarth, a parameter-efficient fine-tuning framework built on Qwen3-VL that treats GSD as a continuous conditioning variable governing the model's computation path. At its core, CS-HLoRA (Continuous Scale-Conditioned Hyper-LoRA) modulates the LoRA low-rank subspace through a GSD-driven gate, enabling the model to dynamically route computation by physical scale. To remove reliance on sensor metadata at deployment, we pair CS-HLoRA with SSE-U, a lightweight heteroscedastic sub-head that predicts GSD and its uncertainty from visual features. To provide matching supervision, we construct GeoScale-VQA, a 1.5M-sample scale-layered RS-VQA corpus whose question-answer generation is conditioned on the same physical scalar that drives CS-HLoRA, forming a closed method-data loop. Trained with QLoRA on an 8B backbone, ScaleEarth achieves state-of-the-art results on remote-sensing benchmarks covering diverse Earth-system tasks, including XLRS-Bench and OmniEarth-Bench.
- Abstract(参考訳): リモートセンシング視覚言語モデル(RS-VLM)は、自然画像と基本的なミスマッチに直面している。
しかし、既存のRS-VLMはGSDを捨てたり、個別のテキストトークンとして注入したりすることが多く、単一の静的パラメータセットにスケールスペクトル全体を吸収させた。
Qwen3-VL上に構築されたパラメータ効率のよい微調整フレームワークであるScaleEarthを導入し、GSDをモデルの計算経路を管理する連続条件変数として扱う。
CS-HLoRA(Continuous Scale-Conditioned Hyper-LoRA)は、GSD駆動ゲートを介してLoRAの低ランク部分空間を変調し、物理スケールで動的に計算をルーティングする。
配置時のセンサメタデータへの依存を取り除くため、CS-HLoRAと、GSDとその不確実性を視覚的特徴から予測する軽量なヘテロセダスティックサブヘッドであるSSE-Uをペアリングする。
CS-HLoRAを駆動する物理スカラー上で質問応答の発生を条件とした1.5Mサンプルスケール層RS-VQAコーパスであるGeoScale-VQAを構築する。
QLoRAを8BバックボーンでトレーニングしたScaleEarthは、XLRS-BenchやOmniEarth-Benchなど、さまざまな地球系のタスクをカバーするリモートセンシングベンチマークにおいて、最先端の結果を達成している。
関連論文リスト
- Walking Further: Semantic-aware Multimodal Gait Recognition Under Long-Range Conditions [27.59550056623308]
We present textbfLRGait, the first LiDAR-Camera multimodal benchmark for robust long-range gait recognition。
また,長距離マルチモーダル歩行認識に適したエンドツーエンドフレームワークである textbfEMGaitNet を提案する。
論文 参考訳(メタデータ) (2026-03-15T02:32:27Z) - VFM-Loc: Zero-Shot Cross-View Geo-Localization via Aligning Discriminative Visual Hierarchies [5.868908918033978]
リモートセンシングにおけるCross-View Geo-Localization (CVGL) は、ジオタグ付き衛星画像とマッチングすることで、ドローンビュークエリを見つけることを目的としている。
視覚基礎モデル(VFM)から一般化可能な視覚表現を利用するゼロショットCVGLのためのトレーニングフリーフレームワークであるVFM-Locを提案する。
実験により、VFM-Locは標準ベンチマークで強いゼロショット精度を示し、大きな斜角角を持つ挑戦的なLO-UCVデータセット上で、Recall@1で教師付きメソッドを20%以上超えることが示されている。
論文 参考訳(メタデータ) (2026-03-14T09:23:59Z) - GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection [0.7865560760233441]
リモートセンシングにおける変化検出(CD)は、異なるタイミングで撮影された衛星画像間の意味的差異を特定することを目的としている。
従来の変換器ベースの手法は、超高解像度(VHR)衛星画像に適用する場合、二次計算の複雑さに悩まされる。
GRAD-Formerは、モデルサイズを小さくすることで効率を保ちながら文脈理解を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-01T15:56:42Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution [33.457410717030946]
超高解像度ビデオのための最初の状態空間モデルフレームワークであるMambaVSRを提案する。
MambaVSRは共有コンパス構築(SCC)とコンテンツ認識シーケンス化(CAS)を通じて動的相互作用を可能にする
CASモジュールは、学習された空間秩序に沿って時間的特徴をインターリーブすることにより、複数のフレームにまたがる非局所的な類似コンテンツを効果的に調整し集約する。
論文 参考訳(メタデータ) (2025-06-13T13:22:28Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Automated classification of pre-defined movement patterns: A comparison
between GNSS and UWB technology [55.41644538483948]
リアルタイム位置情報システム(RTLS)は、人間の動きパターンからデータを収集することができる。
本研究の目的は、小さな領域における人間の動きパターンを分類する自動化された枠組みを設計し、評価することである。
論文 参考訳(メタデータ) (2023-03-10T14:46:42Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。