論文の概要: HCCM: Hierarchical Cross-Granularity Contrastive and Matching Learning for Natural Language-Guided Drones
- arxiv url: http://arxiv.org/abs/2508.21539v1
- Date: Fri, 29 Aug 2025 11:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.024619
- Title: HCCM: Hierarchical Cross-Granularity Contrastive and Matching Learning for Natural Language-Guided Drones
- Title(参考訳): HCCM:自然言語誘導ドローンの階層的クロスグラニュラリティコントラストとマッチング学習
- Authors: Hao Ruan, Jinliang Lin, Yingxin Lai, Zhiming Luo, Shaozi Li,
- Abstract要約: 自然言語誘導ドローン(NLGD)は、ターゲットマッチングやナビゲーションといったタスクに新しいパラダイムを提供する。
ドローンシナリオにおける広い視野と複雑な構成意味論は、視覚言語理解の課題を提起する。
階層的クロスグラニュラリティコントラストとマッチング学習フレームワークを2つのコンポーネントで提案する。
- 参考スコア(独自算出の注目度): 29.663691563826095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language-Guided Drones (NLGD) provide a novel paradigm for tasks such as target matching and navigation. However, the wide field of view and complex compositional semantics in drone scenarios pose challenges for vision-language understanding. Mainstream Vision-Language Models (VLMs) emphasize global alignment while lacking fine-grained semantics, and existing hierarchical methods depend on precise entity partitioning and strict containment, limiting effectiveness in dynamic environments. To address this, we propose the Hierarchical Cross-Granularity Contrastive and Matching learning (HCCM) framework with two components: (1) Region-Global Image-Text Contrastive Learning (RG-ITC), which avoids precise scene partitioning and captures hierarchical local-to-global semantics by contrasting local visual regions with global text and vice versa; (2) Region-Global Image-Text Matching (RG-ITM), which dispenses with rigid constraints and instead evaluates local semantic consistency within global cross-modal representations, enhancing compositional reasoning. Moreover, drone text descriptions are often incomplete or ambiguous, destabilizing alignment. HCCM introduces a Momentum Contrast and Distillation (MCD) mechanism to improve robustness. Experiments on GeoText-1652 show HCCM achieves state-of-the-art Recall@1 of 28.8% (image retrieval) and 14.7% (text retrieval). On the unseen ERA dataset, HCCM demonstrates strong zero-shot generalization with 39.93% mean recall (mR), outperforming fine-tuned baselines.
- Abstract(参考訳): 自然言語誘導ドローン(NLGD)は、ターゲットマッチングやナビゲーションといったタスクに新しいパラダイムを提供する。
しかし、ドローンシナリオにおける広い視野と複雑な構成意味論は、視覚言語理解の課題を提起する。
メインストリーム・ビジョン・ランゲージ・モデル(VLM)は、細粒度のセマンティクスを欠きながらグローバルなアライメントを強調し、既存の階層的手法は正確なエンティティ分割と厳密な封じ込めに依存し、動的環境における有効性を制限している。
そこで本研究では, 局所的視覚領域をグローバルテキストと対比することにより, 階層的局所的意味論を捕捉するRG-ITC (Regional-Global Image-Text Contrastive Learning) と, 厳密な制約を伴わず, グローバルなクロスモーダル表現における局所的意味論的整合性を評価するRG-ITM (Reg-Global Image-Text Matching) の2つのコンポーネントを用いた階層的クロスグラニュラリティ・コントラストラーニング(HCCM) フレームワークを提案する。
さらに、ドローンのテキスト記述は、しばしば不完全または曖昧で不安定なアライメントである。
HCCMは、ロバスト性を改善するために、Momentum Contrast and Distillation (MCD) 機構を導入している。
GeoText-1652の実験では、HCCMは28.8%(画像検索)と14.7%(テキスト検索)の最先端のRecall@1を達成した。
見えないERAデータセットでは、HCCMは39.93%の平均リコール(mR)で強いゼロショットの一般化を示し、微調整のベースラインよりも優れている。
関連論文リスト
- Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T16:00:12Z) - HarmoCLIP: Harmonizing Global and Regional Representations in Contrastive Vision-Language Models [63.87966115136411]
HarmoCLIPはContrastive Language-Image Pre-training内のグローバルおよびリージョン表現を調和させるように設計された新しいフレームワークである。
本研究では,地域レベルでの表現能力を高めるために,地域調整管理戦略を導入する。
論文 参考訳(メタデータ) (2025-11-27T16:24:53Z) - Vision-Language Integration for Zero-Shot Scene Understanding in Real-World Environments [0.0]
本研究では,事前学習した視覚エンコーダと大規模言語モデルを統一する視覚言語統合フレームワークを提案する。
提案システムでは,トップ1の精度が最大18%向上し,セマンティック・コヒーレンス・メトリクスが顕著に向上した。
論文 参考訳(メタデータ) (2025-10-29T01:16:21Z) - GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition [72.29071664964633]
我々は、ロバストな視覚音声認識(VSR)のために設計されたグローバルローカル統合プログレッシブフレームワークGLipを提案する。
GLipは、グローバルな視覚的特徴とローカルな視覚的特徴の両方を、容易にアクセス可能な音声視覚データを用いて対応する音声音声単位に整合させることを学ぶ。
第2段階では、ローカル機能を関連するグローバルコンテキストと動的に統合するコンテキスト拡張モジュール(CEM)を導入します。
論文 参考訳(メタデータ) (2025-09-19T14:36:01Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation [27.770224730465237]
画像生成のための階層的クロスモーダルアライメント(HCMA)フレームワークを提案する。
HCMAは2つのアライメントモジュールを各拡散サンプリングステップに統合する。
MS-COCO 2014検証セットの実験では、HCMAが最先端のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-05-10T05:02:58Z) - Universal Scene Graph Generation [77.53076485727414]
本稿では,包括的セマンティックシーンを特徴付ける新しい表現であるUniversal Universal SG(USG)を紹介する。
クロスモーダルなオブジェクトアライメントとドメイン外課題の2つの重要なボトルネックに効果的に対処するUSG-Parについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T08:55:06Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - Region-level Contrastive and Consistency Learning for Semi-Supervised
Semantic Segmentation [30.1884540364192]
半教師付きセマンティックセグメンテーションのための領域レベルのコントラスト・一貫性学習フレームワーク(RC2L)を提案する。
具体的には、まず、地域マスクコントラスト(RMC)損失と地域特徴コントラスト(RFC)損失を、地域レベルのコントラスト特性を達成するために提案する。
提案する領域レベルのコントラストと一貫性の規則化に基づいて,半教師付きセマンティックセグメンテーションのための領域レベルのコントラストと一貫性の学習フレームワーク(RC2L)を開発する。
論文 参考訳(メタデータ) (2022-04-28T07:22:47Z) - Similarity Reasoning and Filtration for Image-Text Matching [85.68854427456249]
画像-テキストマッチングのための類似度グラフ推論と注意フィルタリングネットワークを提案する。
類似性グラフ推論(SGR)モジュールを1つのグラフ畳み込みニューラルネットワークに頼り、局所的および大域的アライメントの両方と関係性を考慮した類似性を推論する。
Flickr30K と MSCOCO のデータセット上での最先端性能を実現する上で,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-01-05T06:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。