論文の概要: Phrase Decoupling Cross-Modal Hierarchical Matching and Progressive Position Correction for Visual Grounding
- arxiv url: http://arxiv.org/abs/2410.23570v1
- Date: Thu, 31 Oct 2024 02:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:56.733269
- Title: Phrase Decoupling Cross-Modal Hierarchical Matching and Progressive Position Correction for Visual Grounding
- Title(参考訳): 視覚的接地のためのクロスモーダル階層マッチングとプログレッシブ位置補正のファスデカップリング
- Authors: Minghong Xie, Mengzhao Wang, Huafeng Li, Yafei Zhang, Dapeng Tao, Zhengtao Yu,
- Abstract要約: 本稿では,Phrase Decoupling Cross-Modal Hierarchical Matching and Progressive Position Correction Visual Grounding法を提案する。
提案手法は実験によって異なるデータセット上で検証され,その性能比較によりその優位性を検証した。
- 参考スコア(独自算出の注目度): 19.410206885190995
- License:
- Abstract: Visual grounding has attracted wide attention thanks to its broad application in various visual language tasks. Although visual grounding has made significant research progress, existing methods ignore the promotion effect of the association between text and image features at different hierarchies on cross-modal matching. This paper proposes a Phrase Decoupling Cross-Modal Hierarchical Matching and Progressive Position Correction Visual Grounding method. It first generates a mask through decoupled sentence phrases, and a text and image hierarchical matching mechanism is constructed, highlighting the role of association between different hierarchies in cross-modal matching. In addition, a corresponding target object position progressive correction strategy is defined based on the hierarchical matching mechanism to achieve accurate positioning for the target object described in the text. This method can continuously optimize and adjust the bounding box position of the target object as the certainty of the text description of the target object improves. This design explores the association between features at different hierarchies and highlights the role of features related to the target object and its position in target positioning. The proposed method is validated on different datasets through experiments, and its superiority is verified by the performance comparison with the state-of-the-art methods.
- Abstract(参考訳): ビジュアルグラウンドティングは、様々な視覚言語タスクに広く応用されているため、広く注目を集めている。
視覚的基盤化は大きな研究成果を上げているが、既存の手法では、異なる階層におけるテキストと画像の特徴の相互マッチングによる促進効果は無視されている。
本稿では,Phrase Decoupling Cross-Modal Hierarchical Matching and Progressive Position Correction Visual Grounding法を提案する。
まず、切り離された文句を通じてマスクを生成し、テキストと画像の階層マッチング機構を構築し、異なる階層間の相互マッチングにおける関連性を強調した。
また、テキストに記述された対象物の正確な位置決めを実現するための階層的マッチング機構に基づいて、対応する対象位置プログレッシブ補正戦略を定義する。
この方法は、対象オブジェクトのテキスト記述の確実性が向上するにつれて、対象オブジェクトのバウンディングボックス位置を継続的に最適化し、調整することができる。
本設計では, 異なる階層における特徴の関連性を探究し, 対象物とその位置に関する特徴の役割を明らかにする。
提案手法は実験によって異なるデータセット上で検証され,その性能比較によりその優位性を検証した。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Collaborative Position Reasoning Network for Referring Image
Segmentation [30.414910144177757]
本稿では,エンティティローカライゼーションを明示的にモデル化する新しい手法を提案する。
私たちの知る限りでは、位置推論モデリングに重点を置く最初の作品です。
論文 参考訳(メタデータ) (2024-01-22T09:11:12Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval [8.855547063009828]
本稿では、画像文検索のためのCMSEIと呼ばれるクロスモーダル・セマンティック・エンハンスメント・インタラクション手法を提案する。
まず、オブジェクトの意味表現を強化するために、モーダル内およびモーダル間空間および意味グラフに基づく推論を設計する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
論文 参考訳(メタデータ) (2022-10-17T10:01:16Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。
本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-08-14T22:48:36Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。