論文の概要: Ambiguity-Aware and High-Order Relation Learning for Multi-Grained Image-Text Matching
- arxiv url: http://arxiv.org/abs/2507.09256v1
- Date: Sat, 12 Jul 2025 11:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.859541
- Title: Ambiguity-Aware and High-Order Relation Learning for Multi-Grained Image-Text Matching
- Title(参考訳): 多点画像テキストマッチングのためのあいまいさ認識と高次関係学習
- Authors: Junyu Chen, Yihua Gao, Mingyuan Ge, Mingyong Li,
- Abstract要約: 本稿では,これらの問題に対処するためのAmbiguity-Aware and High-order Relation Learning framework (AAHR)を提案する。
このフレームワークはグローバルかつ局所的な特徴抽出機構と適応集約ネットワークを導入し、完全な意味理解能力を大幅に強化する。
実験の結果、AAHRはFlickr30K、MSCOCO、ECCV Captionデータセットの既存の最先端手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 6.633576185707164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text matching is crucial for bridging the semantic gap between computer vision and natural language processing. However, existing methods still face challenges in handling high-order associations and semantic ambiguities among similar instances. These ambiguities arise from subtle differences between soft positive samples (semantically similar but incorrectly labeled) and soft negative samples (locally matched but globally inconsistent), creating matching uncertainties. Furthermore, current methods fail to fully utilize the neighborhood relationships among semantically similar instances within training batches, limiting the model's ability to learn high-order shared knowledge. This paper proposes the Ambiguity-Aware and High-order Relation learning framework (AAHR) to address these issues. AAHR constructs a unified representation space through dynamic clustering prototype contrastive learning, effectively mitigating the soft positive sample problem. The framework introduces global and local feature extraction mechanisms and an adaptive aggregation network, significantly enhancing full-grained semantic understanding capabilities. Additionally, AAHR employs intra-modal and inter-modal correlation matrices to investigate neighborhood relationships among sample instances thoroughly. It incorporates GNN to enhance semantic interactions between instances. Furthermore, AAHR integrates momentum contrastive learning to expand the negative sample set. These combined strategies significantly improve the model's ability to discriminate between features. Experimental results demonstrate that AAHR outperforms existing state-of-the-art methods on Flickr30K, MSCOCO, and ECCV Caption datasets, considerably improving the accuracy and efficiency of image-text matching. The code and model checkpoints for this research are available at https://github.com/Image-Text-Matching/AAHR .
- Abstract(参考訳): 画像テキストマッチングは、コンピュータビジョンと自然言語処理のセマンティックギャップを埋めるのに不可欠である。
しかし、既存の手法は、類似のインスタンス間の高次関連やセマンティックなあいまいさを扱う上で、依然として課題に直面している。
これらの曖昧さは、ソフトな正のサンプルとソフトな負のサンプル(局所的に一致するが、グローバルに矛盾する)の微妙な相違から生じ、一致する不確実性を生み出す。
さらに、現在の手法では、訓練バッチ内でセマンティックに類似したインスタンス間の近傍関係を完全に活用することができず、モデルが高次共有知識を学習する能力を制限する。
本稿では,これらの問題に対処するためのAmbiguity-Aware and High-order Relation Learning framework (AAHR)を提案する。
AAHRは、動的クラスタリングの試行錯誤学習を通じて統一表現空間を構築し、ソフトな正のサンプル問題を効果的に緩和する。
このフレームワークはグローバルかつ局所的な特徴抽出機構と適応集約ネットワークを導入し、完全な意味理解能力を大幅に強化する。
さらに、AAHRは、サンプルインスタンス間の近傍関係を徹底的に調査するために、モーダル内およびモーダル間相関行列を用いている。
GNNを組み込んで、インスタンス間のセマンティックインタラクションを強化する。
さらに、AAHRは運動量コントラスト学習を統合し、負のサンプル集合を拡張する。
これらの統合戦略は、特徴を識別するモデルの能力を大幅に改善した。
実験の結果、AAHRはFlickr30K、MSCOCO、ECCV Captionの既存の最先端手法よりも優れており、画像テキストマッチングの精度と効率が大幅に向上していることがわかった。
この研究のコードとモデルチェックポイントはhttps://github.com/Image-Text-Matching/AAHR で公開されている。
関連論文リスト
- Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。
現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。
Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文 参考訳(メタデータ) (2025-08-05T08:33:58Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with
Adversarial Discriminative Domain Regularization [21.904563910555368]
本稿では,画像とテキストのペア内における識別データドメインの集合を構築するための新しい学習フレームワークを提案する。
我々のアプローチは一般的に既存のメトリクス学習フレームワークの学習効率と性能を改善することができる。
論文 参考訳(メタデータ) (2020-10-23T01:48:37Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。