論文の概要: Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with
Partial Query
- arxiv url: http://arxiv.org/abs/2103.01654v1
- Date: Tue, 2 Mar 2021 11:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:25:53.248209
- Title: Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with
Partial Query
- Title(参考訳): Part2Whole: 部分クエリによるクロスモーダル検索の反復的な詳細化
- Authors: Guanyu Cai, Xinyang Jiang, Jun Zhang, Yifei Gong, Lianghua He, Pai
Peng, Xiaowei Guo, Xing Sun
- Abstract要約: 本稿では,この問題に対処する対話型検索フレームワークPart2Wholeを提案する。
Interactive Retrieval Agentは、初期クエリを洗練するための最適なポリシーを構築するために訓練される。
テキスト画像データセット以外の人手による注釈データを必要としない弱教師付き強化学習法を提案する。
- 参考スコア(独自算出の注目度): 25.398090300086302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based image retrieval has seen considerable progress in recent years.
However, the performance of existing methods suffers in real life since the
user is likely to provide an incomplete description of a complex scene, which
often leads to results filled with false positives that fit the incomplete
description. In this work, we introduce the partial-query problem and
extensively analyze its influence on text-based image retrieval. We then
propose an interactive retrieval framework called Part2Whole to tackle this
problem by iteratively enriching the missing details. Specifically, an
Interactive Retrieval Agent is trained to build an optimal policy to refine the
initial query based on a user-friendly interaction and statistical
characteristics of the gallery. Compared to other dialog-based methods that
rely heavily on the user to feed back differentiating information, we let AI
take over the optimal feedback searching process and hint the user with
confirmation-based questions about details. Furthermore, since fully-supervised
training is often infeasible due to the difficulty of obtaining human-machine
dialog data, we present a weakly-supervised reinforcement learning method that
needs no human-annotated data other than the text-image dataset. Experiments
show that our framework significantly improves the performance of text-based
image retrieval under complex scenes.
- Abstract(参考訳): 近年,テキストによる画像検索が著しく進歩している。
しかし、ユーザが複雑なシーンの不完全な記述を提供する可能性があり、その結果が不完全な記述に適合する偽陽性で満たされることが多いため、既存のメソッドのパフォーマンスは実生活に苦しむ。
本稿では,部分検索問題を導入し,テキストベース画像検索におけるその影響を広範囲に分析する。
そこで我々は,欠落した詳細を反復的に拡張することでこの問題に取り組むための対話型検索フレームワークPart2Wholeを提案する。
特に、インタラクティブ検索エージェントは、ユーザフレンドリーなインタラクションとギャラリーの統計的特性に基づいて、初期クエリを洗練するための最適なポリシーを構築するように訓練される。
ユーザに大きく依存して差別化情報をフィードバックする他のダイアログベースの方法と比較して、AIは最適なフィードバック検索プロセスを引き継ぎ、ユーザに詳細に関する確認ベースの質問を知らせます。
さらに,人間-機械対話データ取得の難しさから,完全教師付き学習は実現できないことが多いため,テキスト-画像データセット以外の人間-注釈データを必要としない弱教師付き強化学習手法を提案する。
実験により,複雑なシーンにおけるテキスト画像検索の性能が大幅に向上することを示した。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。
対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。
対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文 参考訳(メタデータ) (2024-06-05T16:09:01Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z) - From A Glance to "Gotcha": Interactive Facial Image Retrieval with
Progressive Relevance Feedback [72.29919762941029]
本稿では,目撃者から徐々にフィードバックを得て顔画像を取得するためのエンドツーエンドフレームワークを提案する。
追加のアノテーションを必要とせずに、私たちのモデルは少しのレスポンスの努力を犠牲にして適用できます。
論文 参考訳(メタデータ) (2020-07-30T18:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。