論文の概要: Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining
- arxiv url: http://arxiv.org/abs/2603.01758v1
- Date: Mon, 02 Mar 2026 11:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.84337
- Title: Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining
- Title(参考訳): 言語による事前学習による不均一なマルチモーダルリモートセンシング検出
- Authors: Yuxuan Li, Yuming Chen, Yunheng Li, Ming-Ming Cheng, Xiang Li, Jian Yang,
- Abstract要約: 不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
- 参考スコア(独自算出の注目度): 59.2578488860426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous multi-modal remote sensing object detection aims to accurately detect objects from diverse sensors (e.g., RGB, SAR, Infrared). Existing approaches largely adopt a late alignment paradigm, in which modality alignment and task-specific optimization are entangled during downstream fine-tuning. This tight coupling complicates optimization and often results in unstable training and suboptimal generalization. To address these limitations, we propose BabelRS, a unified language-pivoted pretraining framework that explicitly decouples modality alignment from downstream task learning. BabelRS comprises two key components: Concept-Shared Instruction Aligning (CSIA) and Layerwise Visual-Semantic Annealing (LVSA). CSIA aligns each sensor modality to a shared set of linguistic concepts, using language as a semantic pivot to bridge heterogeneous visual representations. To further mitigate the granularity mismatch between high-level language representations and dense detection objectives, LVSA progressively aggregates multi-scale visual features to provide fine-grained semantic guidance. Extensive experiments demonstrate that BabelRS stabilizes training and consistently outperforms state-of-the-art methods without bells and whistles. Code: https://github.com/zcablii/SM3Det.
- Abstract(参考訳): 不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサー(例えば、RGB、SAR、赤外線)からオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
この密結合は最適化を複雑にし、しばしば不安定なトレーニングと準最適一般化をもたらす。
これらの制約に対処するために,下流のタスク学習からモダリティアライメントを明確に分離する,統一言語による事前学習フレームワークであるBabelRSを提案する。
BabelRSは、概念共有インストラクションアライニング(CSIA)とレイヤワイドビジュアルセマンティックアナリング(LVSA)の2つの重要なコンポーネントで構成されている。
CSIAは、各センサのモダリティを言語概念の共有セットに整合させ、異種視覚表現をブリッジするための意味的ピボットとして言語を使用する。
高レベル言語表現と高密度検出目的との粒度ミスマッチを緩和するため、LVSAは段階的に多スケールの視覚的特徴を集約し、微粒なセマンティックガイダンスを提供する。
大規模な実験により、BabelRSは訓練を安定させ、鐘や笛を使わずに最先端の手法を一貫して上回ることを示した。
コード:https://github.com/zcablii/SM3Det.com
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP [21.89022894877594]
異種リモートセンシングと自然言語のセマンティクスを協調する新しいフレームワークMMLGNetを提案する。
CLIPのトレーニングパラダイムにインスパイアされた我々のアプローチは、高次元リモートセンシングデータと言語誘導解釈のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-13T10:44:37Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - Bilateral Collaboration with Large Vision-Language Models for Open Vocabulary Human-Object Interaction Detection [29.24483392547041]
オープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(HOI)検出は、画像に対するすべての人間、動詞、オブジェクト>三つ子を検知する難しいタスクである。
既存のアプローチは通常、大きなビジョンランゲージモデル(VLM)によって生成される出力機能に依存している。
オープン語彙HOI検出のためのバイラテラル協調フレームワーク(BC-HOI)を提案する。
論文 参考訳(メタデータ) (2025-07-09T03:16:39Z) - AeroLite: Tag-Guided Lightweight Generation of Aerial Image Captions [5.67477841586604]
textbfAeroLiteは、リモートセンシング画像のためのタグ付きキャプションフレームワークである。
textbfAeroLiteはGPT-4oを利用して、大規模で意味的にリッチな擬似カプセルデータセットを生成する。
本稿では,視覚的埋め込みにセマンティックタグをアライメントする,新しい多層パーセプトロン(MLP)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-04-13T11:29:31Z) - Large Language Model Guided Progressive Feature Alignment for Multimodal UAV Object Detection [21.16636753446158]
既存のUAVオブジェクト検出手法は、しばしばモダリティ間の意味的ギャップの影響を見落としている。
本稿では,LPANet と呼ばれる,Large Language Model (LLM) ガイド付きプログレッシブ機能アライメントネットワークを提案する。
提案手法は,最先端のマルチモーダルUAVオブジェクト検出器よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T05:53:30Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer [71.82644727907146]
多様な双方向の高密度予測タスクに対して,$underlineComP$lementary $underlinetr$ansformer, $textbfComPtr$を提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。