論文の概要: Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2203.03853v1
- Date: Tue, 8 Mar 2022 05:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 01:18:25.103406
- Title: Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval
- Title(参考訳): パフォーマンス改善はどこから来るのか?
-画像テキスト検索に関する再現性に関する考察
- Authors: Jun Rao, Fei Wang, Liang Ding, Shuhan Qi, Yibing Zhan, Weifeng Liu,
Dacheng Tao
- Abstract要約: 画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
- 参考スコア(独自算出の注目度): 85.03655458677295
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper seeks to provide the information retrieval community with some
reflections on the current improvements of retrieval learning through the
analysis of the reproducibility aspects of image-text retrieval models. For the
latter part of the past decade, image-text retrieval has gradually become a
major research direction in the field of information retrieval because of the
growth of multi-modal data. Many researchers use benchmark datasets like
MS-COCO and Flickr30k to train and assess the performance of image-text
retrieval algorithms. Research in the past has mostly focused on performance,
with several state-of-the-art methods being proposed in various ways. According
to their claims, these approaches achieve better modal interactions and thus
better multimodal representations with greater precision. In contrast to those
previous works, we focus on the repeatability of the approaches and the overall
examination of the elements that lead to improved performance by pretrained and
nonpretrained models in retrieving images and text. To be more specific, we
first examine the related reproducibility concerns and why the focus is on
image-text retrieval tasks, and then we systematically summarize the current
paradigm of image-text retrieval models and the stated contributions of those
approaches. Second, we analyze various aspects of the reproduction of
pretrained and nonpretrained retrieval models. Based on this, we conducted
ablation experiments and obtained some influencing factors that affect
retrieval recall more than the improvement claimed in the original paper.
Finally, we also present some reflections and issues that should be considered
by the retrieval community in the future. Our code is freely available at
https://github.com/WangFei-2019/Image-text-Retrieval.
- Abstract(参考訳): 本稿では,画像テキスト検索モデルの再現性面の分析を通じて,検索学習の現在の改善を反映した情報検索コミュニティを提案する。
過去10年後半,マルチモーダル・データの普及により,画像テキスト検索は徐々に情報検索分野の主要な研究方向となっている。
多くの研究者がms-cocoやflickr30kなどのベンチマークデータセットを使用して、画像テキスト検索アルゴリズムのパフォーマンスをトレーニングし評価している。
過去の研究は主にパフォーマンスに重点を置いており、様々な方法で最先端の手法が提案されている。
彼らの主張によれば、これらの手法はより良いモーダル相互作用を達成し、より正確なマルチモーダル表現を実現する。
これらの先行研究とは対照的に,提案手法の再現性,および画像やテキスト検索における事前学習と非訓練モデルによる性能向上につながる要素の総合的検証に焦点をあてた。
より具体的には、まず、画像テキスト検索タスクに焦点が当てられている理由と、画像テキスト検索モデルの現在のパラダイムとそれらのアプローチの言及された貢献を体系的に要約する。
第二に,事前学習および未訓練検索モデルの再現について,様々な側面を解析した。
これに基づいてアブレーション実験を行い,元の論文で主張された改善よりも検索リコールに影響を及ぼすいくつかの要因を得た。
最後に,検索コミュニティが今後検討すべき考察や課題についても述べる。
私たちのコードはhttps://github.com/WangFei-2019/Image-text-Retrieval.comで無料で利用可能です。
関連論文リスト
- Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。
検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。
本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:22:58Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - A Decade Survey of Content Based Image Retrieval using Deep Learning [13.778851745408133]
本稿では,コンテンツベース画像検索における過去10年間のディープラーニングベース開発に関する包括的調査について述べる。
クエリ画像の代表的な特徴とデータセット画像との類似性は、検索のために画像のランク付けに使用される。
ディープラーニングは、手作業で設計した機能工学の、10年前から支配的な代替手段として現れてきた。
論文 参考訳(メタデータ) (2020-11-23T02:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。