論文の概要: HCCM: Hierarchical Cross-Granularity Contrastive and Matching Learning for Natural Language-Guided Drones
- arxiv url: http://arxiv.org/abs/2508.21539v1
- Date: Fri, 29 Aug 2025 11:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.024619
- Title: HCCM: Hierarchical Cross-Granularity Contrastive and Matching Learning for Natural Language-Guided Drones
- Title(参考訳): HCCM:自然言語誘導ドローンの階層的クロスグラニュラリティコントラストとマッチング学習
- Authors: Hao Ruan, Jinliang Lin, Yingxin Lai, Zhiming Luo, Shaozi Li,
- Abstract要約: 自然言語誘導ドローン(NLGD)は、ターゲットマッチングやナビゲーションといったタスクに新しいパラダイムを提供する。
ドローンシナリオにおける広い視野と複雑な構成意味論は、視覚言語理解の課題を提起する。
階層的クロスグラニュラリティコントラストとマッチング学習フレームワークを2つのコンポーネントで提案する。
- 参考スコア(独自算出の注目度): 29.663691563826095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language-Guided Drones (NLGD) provide a novel paradigm for tasks such as target matching and navigation. However, the wide field of view and complex compositional semantics in drone scenarios pose challenges for vision-language understanding. Mainstream Vision-Language Models (VLMs) emphasize global alignment while lacking fine-grained semantics, and existing hierarchical methods depend on precise entity partitioning and strict containment, limiting effectiveness in dynamic environments. To address this, we propose the Hierarchical Cross-Granularity Contrastive and Matching learning (HCCM) framework with two components: (1) Region-Global Image-Text Contrastive Learning (RG-ITC), which avoids precise scene partitioning and captures hierarchical local-to-global semantics by contrasting local visual regions with global text and vice versa; (2) Region-Global Image-Text Matching (RG-ITM), which dispenses with rigid constraints and instead evaluates local semantic consistency within global cross-modal representations, enhancing compositional reasoning. Moreover, drone text descriptions are often incomplete or ambiguous, destabilizing alignment. HCCM introduces a Momentum Contrast and Distillation (MCD) mechanism to improve robustness. Experiments on GeoText-1652 show HCCM achieves state-of-the-art Recall@1 of 28.8% (image retrieval) and 14.7% (text retrieval). On the unseen ERA dataset, HCCM demonstrates strong zero-shot generalization with 39.93% mean recall (mR), outperforming fine-tuned baselines.
- Abstract(参考訳): 自然言語誘導ドローン(NLGD)は、ターゲットマッチングやナビゲーションといったタスクに新しいパラダイムを提供する。
しかし、ドローンシナリオにおける広い視野と複雑な構成意味論は、視覚言語理解の課題を提起する。
メインストリーム・ビジョン・ランゲージ・モデル(VLM)は、細粒度のセマンティクスを欠きながらグローバルなアライメントを強調し、既存の階層的手法は正確なエンティティ分割と厳密な封じ込めに依存し、動的環境における有効性を制限している。
そこで本研究では, 局所的視覚領域をグローバルテキストと対比することにより, 階層的局所的意味論を捕捉するRG-ITC (Regional-Global Image-Text Contrastive Learning) と, 厳密な制約を伴わず, グローバルなクロスモーダル表現における局所的意味論的整合性を評価するRG-ITM (Reg-Global Image-Text Matching) の2つのコンポーネントを用いた階層的クロスグラニュラリティ・コントラストラーニング(HCCM) フレームワークを提案する。
さらに、ドローンのテキスト記述は、しばしば不完全または曖昧で不安定なアライメントである。
HCCMは、ロバスト性を改善するために、Momentum Contrast and Distillation (MCD) 機構を導入している。
GeoText-1652の実験では、HCCMは28.8%(画像検索)と14.7%(テキスト検索)の最先端のRecall@1を達成した。
見えないERAデータセットでは、HCCMは39.93%の平均リコール(mR)で強いゼロショットの一般化を示し、微調整のベースラインよりも優れている。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation [27.770224730465237]
画像生成のための階層的クロスモーダルアライメント(HCMA)フレームワークを提案する。
HCMAは2つのアライメントモジュールを各拡散サンプリングステップに統合する。
MS-COCO 2014検証セットの実験では、HCMAが最先端のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-05-10T05:02:58Z) - Universal Scene Graph Generation [77.53076485727414]
本稿では,包括的セマンティックシーンを特徴付ける新しい表現であるUniversal Universal SG(USG)を紹介する。
クロスモーダルなオブジェクトアライメントとドメイン外課題の2つの重要なボトルネックに効果的に対処するUSG-Parについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T08:55:06Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Similarity Reasoning and Filtration for Image-Text Matching [85.68854427456249]
画像-テキストマッチングのための類似度グラフ推論と注意フィルタリングネットワークを提案する。
類似性グラフ推論(SGR)モジュールを1つのグラフ畳み込みニューラルネットワークに頼り、局所的および大域的アライメントの両方と関係性を考慮した類似性を推論する。
Flickr30K と MSCOCO のデータセット上での最先端性能を実現する上で,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-01-05T06:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。