論文の概要: GenIR: Generative Visual Feedback for Mental Image Retrieval
- arxiv url: http://arxiv.org/abs/2506.06220v1
- Date: Fri, 06 Jun 2025 16:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.553676
- Title: GenIR: Generative Visual Feedback for Mental Image Retrieval
- Title(参考訳): GenIR: メンタルイメージ検索のための生成的視覚フィードバック
- Authors: Diji Yang, Minghao Liu, Chung-Hsiang Lo, Yi Zhang, James Davis,
- Abstract要約: 心的イメージ検索(MIR)の課題について検討する。
MIRは、ユーザーがイメージ検索エンジンとのマルチラウンドインタラクションを通じて、精神的に想定されたイメージの検索を洗練する現実的で過度に探索された環境をターゲットにしている。
本稿では,拡散に基づく画像生成を活用し,各ラウンドにおけるAIシステムの理解を明確化するための生成多ラウンド検索パラダイムであるGenIRを提案する。
- 参考スコア(独自算出の注目度): 6.813922846074993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown strong performance on text-to-image retrieval benchmarks. However, bridging this success to real-world applications remains a challenge. In practice, human search behavior is rarely a one-shot action. Instead, it is often a multi-round process guided by clues in mind, that is, a mental image ranging from vague recollections to vivid mental representations of the target image. Motivated by this gap, we study the task of Mental Image Retrieval (MIR), which targets the realistic yet underexplored setting where users refine their search for a mentally envisioned image through multi-round interactions with an image search engine. Central to successful interactive retrieval is the capability of machines to provide users with clear, actionable feedback; however, existing methods rely on indirect or abstract verbal feedback, which can be ambiguous, misleading, or ineffective for users to refine the query. To overcome this, we propose GenIR, a generative multi-round retrieval paradigm leveraging diffusion-based image generation to explicitly reify the AI system's understanding at each round. These synthetic visual representations provide clear, interpretable feedback, enabling users to refine their queries intuitively and effectively. We further introduce a fully automated pipeline to generate a high-quality multi-round MIR dataset. Experimental results demonstrate that GenIR significantly outperforms existing interactive methods in the MIR scenario. This work establishes a new task with a dataset and an effective generative retrieval method, providing a foundation for future research in this direction.
- Abstract(参考訳): 視覚言語モデル (VLM) はテキスト・ツー・イメージ検索ベンチマークにおいて高い性能を示した。
しかし、この成功を現実世界のアプリケーションにブリッジすることは依然として課題である。
実際には、人間の検索行動がワンショットアクションであることは滅多にない。
代わりに、それはしばしば、手がかり、すなわち、曖昧な記憶から、対象のイメージの鮮明な心的表現まで、心的イメージを念頭に置いて導かれる多ラウンドのプロセスである。
このギャップに触発されて、画像検索エンジンとのマルチラウンドインタラクションを通じて、ユーザーが精神的なイメージの検索を洗練させる現実的かつ未探索な設定を目標とするメンタルイメージ検索(MIR)の課題について検討する。
インタラクティブ検索の成功の中心は、ユーザに対して明確で行動可能なフィードバックを提供するマシンの能力である。しかし、既存のメソッドは間接的あるいは抽象的な言葉によるフィードバックに依存しており、ユーザがクエリを洗練するための曖昧さ、誤解を招くこと、あるいは非効率である。
これを解決するために,拡散に基づく画像生成を活用し,各ラウンドにおけるAIシステムの理解を明確化するための生成多ラウンド検索パラダイムであるGenIRを提案する。
これらの合成視覚表現は、明瞭で解釈可能なフィードバックを提供し、ユーザは直感的で効果的にクエリを洗練できる。
さらに,高品質なマルチラウンドMIRデータセットを生成するための完全自動パイプラインを導入する。
実験の結果,GenIRは既存の対話的手法よりも優れていた。
本研究は,データセットと効率的な生成検索手法による新たな課題を確立し,今後の研究の基盤を提供する。
関連論文リスト
- A Picture is Worth a Thousand Prompts? Efficacy of Iterative Human-Driven Prompt Refinement in Image Regeneration Tasks [1.8563642867160601]
AI生成画像の作成はしばしば、望ましい視覚的な結果を達成するために、入力プロンプトを反復的に精細化する。
この研究は、AIを用いた画像再生という比較的未解明の概念に焦点を当てている。
本稿では,反復的プロンプトリファインメントが,再生画像の目標に対する類似性にどのように影響するかを,構造化されたユーザスタディで評価する。
論文 参考訳(メタデータ) (2025-04-29T01:21:16Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。