Fugu-MT 論文翻訳(概要): Multi-modal Reference Learning for Fine-grained Text-to-Image Retrieval

論文の概要: Multi-modal Reference Learning for Fine-grained Text-to-Image Retrieval

arxiv url: http://arxiv.org/abs/2504.07718v1
Date: Thu, 10 Apr 2025 13:09:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 17:42:41.247766
Title: Multi-modal Reference Learning for Fine-grained Text-to-Image Retrieval
Title（参考訳）: 微細なテキスト・画像検索のためのマルチモーダル参照学習
Authors: Zehong Ma, Hao Chen, Wei Zeng, Limin Su, Shiliang Zhang,
Abstract要約: きめ細かいテキスト・ツー・イメージ検索は、与えられたテキストクエリーできめ細かいターゲット画像を取得することを目的としている。既存の手法では、各トレーニングイメージがテキスト記述によって正確に描写されていると仮定する。頑健な表現を学習するためのマルチモーダル参照学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 40.93645061509279
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-grained text-to-image retrieval aims to retrieve a fine-grained target image with a given text query. Existing methods typically assume that each training image is accurately depicted by its textual descriptions. However, textual descriptions can be ambiguous and fail to depict discriminative visual details in images, leading to inaccurate representation learning. To alleviate the effects of text ambiguity, we propose a Multi-Modal Reference learning framework to learn robust representations. We first propose a multi-modal reference construction module to aggregate all visual and textual details of the same object into a comprehensive multi-modal reference. The multi-modal reference hence facilitates the subsequent representation learning and retrieval similarity computation. Specifically, a reference-guided representation learning module is proposed to use multi-modal references to learn more accurate visual and textual representations. Additionally, we introduce a reference-based refinement method that employs the object references to compute a reference-based similarity that refines the initial retrieval results. Extensive experiments are conducted on five fine-grained text-to-image retrieval datasets for different text-to-image retrieval tasks. The proposed method has achieved superior performance over state-of-the-art methods. For instance, on the text-to-person image retrieval dataset RSTPReid, our method achieves the Rank1 accuracy of 56.2\%, surpassing the recent CFine by 5.6\%.
Abstract（参考訳）: きめ細かいテキスト・ツー・イメージ検索は、与えられたテキストクエリーできめ細かいターゲット画像を取得することを目的としている。既存の手法では、各トレーニングイメージがテキスト記述によって正確に描写されていると仮定することが多い。しかし、文章の記述は曖昧であり、画像内の識別的視覚的詳細を表現できないため、不正確な表現学習につながる。テキストのあいまいさの影響を軽減するために,頑健な表現を学習するためのマルチモーダル参照学習フレームワークを提案する。まず、同じオブジェクトの視覚的およびテキスト的詳細すべてを総合的なマルチモーダル参照に集約するマルチモーダル参照構築モジュールを提案する。マルチモーダル参照は、その後の表現学習と検索類似性計算を容易にする。具体的には、マルチモーダル参照を用いてより正確な視覚的およびテキスト的表現を学習するために、参照誘導表現学習モジュールを提案する。さらに,オブジェクト参照を利用した参照ベース改良手法を導入し,参照ベースの類似性を計算し,初期検索結果を洗練する。異なるテキスト・ツー・イメージ検索タスクのための5つのきめ細かいテキスト・ツー・イメージ検索データセットについて、広範囲にわたる実験を行った。提案手法は最先端手法よりも優れた性能を示した。例えば、テキスト対人画像検索データセットRSTPReidでは、最新のCFineを5.6\%上回る56.2\%のランク1の精度を実現している。

関連論文リスト

Beyond Pixels: A Training-Free, Text-to-Text Framework for Remote Sensing Image Retrieval [2.2613695007273926]
我々は、画像毎に複数の構造化キャプションを特徴付ける新しいベンチマークであるRemote Sensing Rich Textデータセットを紹介する。本データセットに基づいて,TRSLLaVAと呼ばれる完全トレーニングフリーでテキストのみの検索基準を提案する。提案手法は,VLM生成キャプションのデータベースに対して,リッチテキスト記述をクエリとして活用し,テキスト間マッチング問題としてクロスモーダル検索を再構成する。
論文参考訳（メタデータ） (2025-12-11T12:43:41Z)
TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
Composed Image Retrieval for Remote Sensing [24.107610091033997]
この研究は、合成画像検索をリモートセンシングに導入する。テキスト記述で交互に画像例によって大きな画像アーカイブをクエリできる。イメージ・ツー・イメージとテキスト・ツー・イメージの類似性を融合させる新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-24T14:18:31Z)
Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文参考訳（メタデータ） (2023-10-17T12:39:16Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文参考訳（メタデータ） (2023-06-15T00:19:13Z)
Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文参考訳（メタデータ） (2023-05-22T12:13:08Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文参考訳（メタデータ） (2022-03-15T17:29:20Z)
Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。 12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文参考訳（メタデータ） (2020-12-30T09:11:50Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)
Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval [41.505920288928365]
マルチモーダルデータは、クロスモーダル検索方法への関心を喚起している。テキストと画像のサブスペースのセマンティックコヒーレンシを促進する新しいモダリティ損失を提案する。提案手法では,ペア画像とテキストが近接するだけでなく,期待される画像イメージとテキストテキストの関係も観察される。
論文参考訳（メタデータ） (2020-07-16T20:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。