論文の概要: Descriptive Image-Text Matching with Graded Contextual Similarity
- arxiv url: http://arxiv.org/abs/2505.09997v1
- Date: Thu, 15 May 2025 06:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.201862
- Title: Descriptive Image-Text Matching with Graded Contextual Similarity
- Title(参考訳): 文脈的類似度を考慮した記述的画像テキストマッチング
- Authors: Jinhyun Jang, Jiyeong Lee, Kwanghoon Sohn,
- Abstract要約: 画像とテキストの文脈的類似度を段階的に学習するために,DITMと呼ばれる記述的画像テキストマッチングを提案する。
各文の記述性スコアを累積項の周波数逆文書頻度(TF-IDF)で定式化し、両者の相似性をバランスさせる。
本手法は文記述性を利用して,2つの重要な方法で堅牢な画像テキストマッチングを学習する。
- 参考スコア(独自算出の注目度): 36.31847755910346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text matching aims to build correspondences between visual and textual data by learning their pairwise similarities. Most existing approaches have adopted sparse binary supervision, indicating whether a pair of images and sentences matches or not. However, such sparse supervision covers a limited subset of image-text relationships, neglecting their inherent many-to-many correspondences; an image can be described in numerous texts at different descriptive levels. Moreover, existing approaches overlook the implicit connections from general to specific descriptions, which form the underlying rationale for the many-to-many relationships between vision and language. In this work, we propose descriptive image-text matching, called DITM, to learn the graded contextual similarity between image and text by exploring the descriptive flexibility of language. We formulate the descriptiveness score of each sentence with cumulative term frequency-inverse document frequency (TF-IDF) to balance the pairwise similarity according to the keywords in the sentence. Our method leverages sentence descriptiveness to learn robust image-text matching in two key ways: (1) to refine the false negative labeling, dynamically relaxing the connectivity between positive and negative pairs, and (2) to build more precise matching, aligning a set of relevant sentences in a generic-to-specific order. By moving beyond rigid binary supervision, DITM enhances the discovery of both optimal matches and potential positive pairs. Extensive experiments on MS-COCO, Flickr30K, and CxC datasets demonstrate the effectiveness of our method in representing complex image-text relationships compared to state-of-the-art approaches. In addition, DITM enhances the hierarchical reasoning ability of the model, supported by the extensive analysis on HierarCaps benchmark.
- Abstract(参考訳): 画像テキストマッチングは、視覚的データとテキストデータとの対応性を構築することを目的としている。
既存のアプローチの多くはスパースバイナリの監視を採用しており、画像と文のペアが一致するかどうかを示している。
しかし、そのような疎外的な監督は、画像とテキストの関係の限られたサブセットをカバーし、それら固有の多対多の対応を無視している。
さらに、既存のアプローチは、一般から特定の記述への暗黙のつながりを見落とし、視覚と言語の間の多対多の関係の理論的根拠を形成している。
本研究では,DTMと呼ばれる記述的画像テキストマッチングを提案し,記述的柔軟性を探求することにより,画像とテキストの文脈的相似性を学習する。
各文の記述性スコアを累積項の周波数逆文書頻度(TF-IDF)で定式化し、文中のキーワードに応じてペアの類似性をバランスさせる。
提案手法は文記述性を利用して,(1)偽陰性ラベリングを洗練し,正対と負対の接続性を動的に緩和し,(2)より正確なマッチングを構築すること,(2)関連文の集合を汎用的な順序で整列させること,という2つの重要な方法で画像テキストマッチングを学習する。
厳密な二分法を超越して、DITMは最適なマッチングと潜在的な正のペアの両方の発見を促進する。
MS-COCO,Flickr30K,CxCデータセットの大規模な実験により,最先端のアプローチと比較して複雑な画像テキスト関係を表現する方法の有効性が示された。
さらに、DITMは階層的推論能力を向上し、HierarCapsベンチマークの広範な分析によってサポートされている。
関連論文リスト
- Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - Constructing Phrase-level Semantic Labels to Form Multi-Grained
Supervision for Image-Text Retrieval [48.20798265640068]
テキスト中のミスマッチしたユニットの識別をより良くするためのフレーズレベルの監視を導入する。
一致した文のテキストシーングラフを構築し,フレーズレベルのラベルとしてエンティティとトリプルを抽出する。
トレーニングでは,グローバルな視点とローカルな視点の両方から,マルチスケールのマッチング損失を提案する。
論文 参考訳(メタデータ) (2021-09-12T14:21:15Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。