論文の概要: CrossVL: Complexity-Aware Feature Routing and Paired Curriculum for Cross-View Vision-Language Detection
- arxiv url: http://arxiv.org/abs/2605.09802v1
- Date: Sun, 10 May 2026 22:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.425251
- Title: CrossVL: Complexity-Aware Feature Routing and Paired Curriculum for Cross-View Vision-Language Detection
- Title(参考訳): CrossVL: 複雑度を考慮した視覚領域検出のための特徴ルーティングとペア化カリキュラム
- Authors: Zhipeng Liu, Chunbo Luo,
- Abstract要約: 視覚言語モデル(VLM)は、テキスト誘導オブジェクトの検出を可能にするが、クロスビューシナリオ下では著しく劣化する。
CPA(Complexity-Aware Pathway Aggregation)とPCL(Paired Curriculum Learning)を組み合わせたフレームワークであるCrossVLを提案する。
MAVRECでは、CrossVLはFloence-2の空中mAPを58.66%から61.03%に改善し、地上性能のギャップを8.63ppから6.65ppに短縮した。
- 参考スコア(独自算出の注目度): 11.043535222090256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) enable text-guided object detection but degrade severely under cross-view scenarios where ground and aerial viewpoints differ in altitude, scale, and spatial layout. These geometric changes introduce systematic complexity variations between viewpoints, e.g., ground view images contain dense and highly occluded structures, while aerial images are sparse and globally organized. Fixed VLM fusion mechanisms cannot handle this discrepancy. We propose CrossVL, a framework combining Complexity-Aware Pathway Aggregation (CPA) and Paired Curriculum Learning (PCL) for enhanced cross-view detection for VLM. CPA estimates scene complexity from multimodal statistics and routes visual features through multiple pathways to obtain view-specific representations. PCL leverages semantic consistency of synchronized ground-aerial pairs to provide stable early supervision and then gradually shifts toward randomized sampling. On MAVREC, CrossVL improves Florence-2's aerial mAP from 58.66% to 61.03% and reduces the ground-aerial performance gap from 8.63pp to 6.65pp, while also achieving a 3.3x reduction in variance across random seeds. CPA provides stable complexity-aware feature aggregation, and PCL enhances optimization dynamics. Together, they demonstrate that coordinated architectural and training adaptations are crucial for robust cross-view VLM detection.
- Abstract(参考訳): 視覚言語モデル(VLM)は、テキスト誘導オブジェクトの検出を可能にするが、地上と空中の視点が高度、スケール、空間的レイアウトで異なる場合のクロスビューシナリオでは著しく低下する。
これらの幾何学的変化は、例えば、地上のビューイメージは密集した構造と密集した構造を含んでいるが、空のイメージは疎外であり、グローバルに整理されている。
固定されたVLM融合機構は、この相違に対処できない。
複雑なパスウェイ集約(CPA)とペアドカリキュラムラーニング(PCL)を組み合わせた,VLMのクロスビュー検出のためのフレームワークであるCrossVLを提案する。
CPAは、マルチモーダル統計からシーンの複雑さを推定し、ビュー固有の表現を得るために複数の経路を通して視覚特徴をルーティングする。
PCLは、同期された地上対のセマンティック一貫性を利用して、安定した早期監視を行い、徐々にランダム化されたサンプリングへと移行する。
MAVRECでは、CrossVLはフロレンス-2の空中mAPを58.66%から61.03%に改善し、地上性能のギャップを8.63ppから6.65ppに減らした。
CPAは安定した複雑性を考慮した機能集約を提供し、PCLは最適化のダイナミクスを強化する。
同時に、協調したアーキテクチャとトレーニングの適応が、堅牢なクロスビューVLM検出に不可欠であることを実証した。
関連論文リスト
- Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception [51.687842983240564]
無人航空機(UAV)のクロスビューな地上局地化は、斜めのUAV画像と衛星地図との厳密な幾何学的相違により、いまだに困難である。
本稿では,3次元シーン形状を明示的にモデル化し,粗い位置認識ときめ細かなポーズ推定を統一する,幾何認識型UAV測位フレームワークを提案する。
提案手法は, 最先端のベースラインを著しく上回り, ロバストメータレベルのローカライゼーション精度を実現し, 複雑な都市環境における一般化を向上する。
論文 参考訳(メタデータ) (2026-04-02T08:08:41Z) - AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - Seeing Across Time and Views: Multi-Temporal Cross-View Learning for Robust Video Person Re-Identification [1.4270165633706586]
クロスビュー領域におけるビデオベースの人物再識別(ReID)は依然として未解決の問題である。
ViT-B/16バックボーン上に7つの相補的なモジュールを導入するパラメータ効率のフレームワークであるMTF-CVReIDを提案する。
我々は,MTF-CVReIDがリアルタイム効率(189FPS)を維持し,AG-VPReIDベンチマークの最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-04T13:37:59Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:38Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。