論文の概要: A Parameter-Efficient Mixture-of-Experts Framework for Cross-Modal Geo-Localization
- arxiv url: http://arxiv.org/abs/2510.20291v1
- Date: Thu, 23 Oct 2025 07:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.524888
- Title: A Parameter-Efficient Mixture-of-Experts Framework for Cross-Modal Geo-Localization
- Title(参考訳): クロスモーダルジオローカライゼーションのためのパラメータ効率のよいMixture-of-Expertsフレームワーク
- Authors: LinFeng Li, Jian Zhao, Zepeng Yang, Yuhang Song, Bojun Lin, Tianle Zhang, Yuchen Yuan, Chi Zhang, Xuelong Li,
- Abstract要約: 我々はRoboSense 2025 Track 4: Cross-Modal Drone Navigationに勝利のソリューションを提示する。
タスクは、大規模なマルチプラットフォームコーパスから最も関連性の高いジオレファレンス画像を取得する。
我々は、差別力を高めるために、プログレッシブな2段階の強硬なマイニング戦略を用いて、3つのプラットフォーム専門家を訓練する。
- 参考スコア(独自算出の注目度): 49.13032757301023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a winning solution to RoboSense 2025 Track 4: Cross-Modal Drone Navigation. The task retrieves the most relevant geo-referenced image from a large multi-platform corpus (satellite/drone/ground) given a natural-language query. Two obstacles are severe inter-platform heterogeneity and a domain gap between generic training descriptions and platform-specific test queries. We mitigate these with a domain-aligned preprocessing pipeline and a Mixture-of-Experts (MoE) framework: (i) platform-wise partitioning, satellite augmentation, and removal of orientation words; (ii) an LLM-based caption refinement pipeline to align textual semantics with the distinct visual characteristics of each platform. Using BGE-M3 (text) and EVA-CLIP (image), we train three platform experts using a progressive two-stage, hard-negative mining strategy to enhance discriminative power, and fuse their scores at inference. The system tops the official leaderboard, demonstrating robust cross-modal geo-localization under heterogeneous viewpoints.
- Abstract(参考訳): 我々はRoboSense 2025 Track 4: Cross-Modal Drone Navigationに勝利のソリューションを提示する。
このタスクは、自然言語クエリが与えられた大規模なマルチプラットフォームコーパス(衛星/ドローン/地上)から、最も関連性の高いジオレファレンス画像を取得する。
2つの障害は、プラットフォーム間の不均一性と、一般的なトレーニング記述とプラットフォーム固有のテストクエリのドメインギャップである。
私たちはこれらをドメイン整合型前処理パイプラインとMixture-of-Experts(MoE)フレームワークで軽減します。
一 プラットフォーム単位での分割、衛星の増強及び方向の単語の除去
(II)LLMを用いた字幕改良パイプラインにより,各プラットフォームにおける視覚的特徴とテキスト意味を一致させる。
BGE-M3 (text) と EVA-CLIP (image) を用いて, プログレッシブ2段階, 硬負のマイニング戦略を用いて3つのプラットフォームの専門家を訓練し, 識別力を高め, 推論時にスコアを融合させる。
このシステムは公式のリーダーボードの上にあり、不均一な視点の下で、堅牢なクロスモーダルな地理的局在を実証している。
関連論文リスト
- A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation [8.48847068018671]
本稿では,3段階画像テキスト特徴アライメントネットワークであるTFANetを提案する。
KPS(Knowledge Plus Stage)、KFS(Knowledge Fusion Stage)、KIS(Knowledge Intensification Stage)の3段階からなる階層的なフレームワークを通じて、マルチモーダルアライメントを強化する。
KPSでは,画像領域と言語記述の異なる粒度とのリッチで効率的なアライメントを確立する,MLAM(Multiscale Linear Cross-Attention Module)を設計する。
KFSはさらに、クロスモーダル・フィーチャー・スキャン・モジュール(CFSM)による機能アライメントを強化し、長距離依存関係のキャプチャにマルチモーダル選択的スキャンを適用した。
論文 参考訳(メタデータ) (2025-09-16T13:26:58Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization [27.131867916908156]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じターゲットの画像にマッチすることを目的としている。
本稿では,パートベース表現学習,シフト・デンス分割学習を紹介する。
SDPLは位置ずれに対して頑健であり、2つの一般的なベンチマークで反復的に動作することを示す。
論文 参考訳(メタデータ) (2024-03-07T03:07:54Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。