論文の概要: Rethinking Benchmarks for Cross-modal Image-text Retrieval
- arxiv url: http://arxiv.org/abs/2304.10824v1
- Date: Fri, 21 Apr 2023 09:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:20:16.453988
- Title: Rethinking Benchmarks for Cross-modal Image-text Retrieval
- Title(参考訳): クロスモーダル画像テキスト検索のためのベンチマーク再考
- Authors: Weijing Chen, Linli Yao, Qin Jin
- Abstract要約: クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
- 参考スコア(独自算出の注目度): 44.31783230767321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text retrieval, as a fundamental and important branch of information
retrieval, has attracted extensive research attentions. The main challenge of
this task is cross-modal semantic understanding and matching. Some recent works
focus more on fine-grained cross-modal semantic matching. With the prevalence
of large scale multimodal pretraining models, several state-of-the-art models
(e.g. X-VLM) have achieved near-perfect performance on widely-used image-text
retrieval benchmarks, i.e. MSCOCO-Test-5K and Flickr30K-Test-1K. In this paper,
we review the two common benchmarks and observe that they are insufficient to
assess the true capability of models on fine-grained cross-modal semantic
matching. The reason is that a large amount of images and texts in the
benchmarks are coarse-grained. Based on the observation, we renovate the
coarse-grained images and texts in the old benchmarks and establish the
improved benchmarks called MSCOCO-FG and Flickr30K-FG. Specifically, on the
image side, we enlarge the original image pool by adopting more similar images.
On the text side, we propose a novel semi-automatic renovation approach to
refine coarse-grained sentences into finer-grained ones with little human
effort. Furthermore, we evaluate representative image-text retrieval models on
our new benchmarks to demonstrate the effectiveness of our method. We also
analyze the capability of models on fine-grained semantic comprehension through
extensive experiments. The results show that even the state-of-the-art models
have much room for improvement in fine-grained semantic understanding,
especially in distinguishing attributes of close objects in images. Our code
and improved benchmark datasets are publicly available at:
https://github.com/cwj1412/MSCOCO-Flikcr30K_FG, which we hope will inspire
further in-depth research on cross-modal retrieval.
- Abstract(参考訳): 情報検索の基本的かつ重要な分野である画像テキスト検索は、幅広い研究の注目を集めている。
このタスクの主な課題は、クロスモーダルなセマンティック理解とマッチングである。
最近のいくつかの研究は、より細かなクロスモーダルセマンティクスマッチングに焦点を当てている。
大規模マルチモーダル事前トレーニングモデルの普及に伴い、いくつかの最先端モデル(例えばX-VLM)は、広く使用されている画像テキスト検索ベンチマーク、すなわちMSCOCO-Test-5KとFlickr30K-Test-1Kでほぼ完全な性能を達成した。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度相互意味マッチングにおける真の能力を評価するには不十分であることを考察する。
理由は、ベンチマーク中の大量の画像とテキストが粗いからだ。
本研究は,従来のベンチマークの粗粒度画像とテキストを改良し,MSCOCO-FGおよびFlickr30K-FGと呼ばれる改良されたベンチマークを確立する。
具体的には、画像側では、より類似した画像を採用して元の画像プールを拡大する。
テキスト側では,粗粒文を人間の努力の少ない細粒文に洗練するための,新しい半自動的修正手法を提案する。
さらに,本手法の有効性を示すために,新たなベンチマークで代表的画像テキスト検索モデルを評価する。
また,詳細なセマンティック理解におけるモデルの有効性を,広範囲な実験を通して解析する。
その結果、最先端モデルでさえ、細粒度のセマンティック理解、特に画像中の近接物体の属性の識別に多くの改善の余地があることが示されている。
私たちのコードと改善されたベンチマークデータセットは、https://github.com/cwj1412/MSCOCO-Flikcr30K_FGで公開されています。
関連論文リスト
- Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models [36.19590638188108]
我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。
具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。
提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
論文 参考訳(メタデータ) (2023-04-21T03:45:59Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z) - An Effective Automatic Image Annotation Model Via Attention Model and
Data Equilibrium [0.0]
提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。
2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルよりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-01-26T05:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。