論文の概要: DIR-TIR: Dialog-Iterative Refinement for Text-to-Image Retrieval
- arxiv url: http://arxiv.org/abs/2511.14449v1
- Date: Tue, 18 Nov 2025 12:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.117785
- Title: DIR-TIR: Dialog-Iterative Refinement for Text-to-Image Retrieval
- Title(参考訳): DIR-TIR:テキスト・画像検索のためのダイアログIterative Refinement
- Authors: Zongwei Zhen, Biqing Zeng,
- Abstract要約: 本フレームワークは,2つのモジュールを対象とする画像検索を段階的に改良する。
Dialog Refinerは、ユーザに対して、重要な情報を抽出し、より正確な記述を生成するよう、積極的にクエリする。
Image Refinerは生成した画像とユーザの意図のギャップを識別し、視覚と意味の相違を戦略的に低減する。
- 参考スコア(独自算出の注目度): 3.5092739016434567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the task of interactive, conversational text-to-image retrieval. Our DIR-TIR framework progressively refines the target image search through two specialized modules: the Dialog Refiner Module and the Image Refiner Module. The Dialog Refiner actively queries users to extract essential information and generate increasingly precise descriptions of the target image. Complementarily, the Image Refiner identifies perceptual gaps between generated images and user intentions, strategically reducing the visual-semantic discrepancy. By leveraging multi-turn dialogues, DIR-TIR provides superior controllability and fault tolerance compared to conventional single-query methods, significantly improving target image hit accuracy. Comprehensive experiments across diverse image datasets demonstrate our dialogue-based approach substantially outperforms initial-description-only baselines, while the synergistic module integration achieves both higher retrieval precision and enhanced interactive experience.
- Abstract(参考訳): 本稿では対話型テキスト・画像検索の課題について述べる。
我々の DIR-TIR フレームワークは,Dialog Refiner Module と Image Refiner Module という2つの特殊なモジュールを通じて,対象の画像検索を段階的に洗練する。
Dialog Refinerはユーザに対して,重要な情報を抽出し,ターゲット画像のより正確な記述を生成するよう積極的に問い合わせる。
補完的に、Image Refinerは生成された画像とユーザの意図の間の知覚的ギャップを識別し、視覚と意味の相違を戦略的に低減する。
DIR-TIRは,マルチターン対話を活用することで,従来の単一クエリ方式に比べて制御性と耐故障性に優れ,目標画像のヒット精度を大幅に向上させる。
多様な画像データセットにまたがる総合的な実験により、対話に基づくアプローチは、初期記述のみのベースラインを大幅に上回り、相乗的モジュール統合は、より高い検索精度と高機能な対話的体験を実現する。
関連論文リスト
- DetailFusion: A Dual-branch Framework with Detail Enhancement for Composed Image Retrieval [51.30915462824879]
Composed Image Retrieval (CIR) は、参照画像と修正テキストを組み合わせたクエリとして、ギャラリーからターゲットイメージを取得することを目的としている。
最近のアプローチでは、2つのモダリティからのグローバル情報のバランスに焦点が当てられ、クエリを検索のための統一的な機能にエンコードする。
DetailFusionは,グローバルおよび詳細な粒度の情報を効果的にコーディネートする,新しいデュアルブランチフレームワークである。
論文 参考訳(メタデータ) (2025-05-23T12:15:23Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Visualizing Dialogues: Enhancing Image Selection through Dialogue Understanding with Large Language Models [25.070424546200293]
本稿では,大規模言語モデル(LLM)の頑健な推論機能を活用して,正確な対話関連視覚記述子を生成する手法を提案する。
ベンチマークデータを用いて行った実験は、簡潔で正確な視覚記述子の導出における提案手法の有効性を検証した。
本研究は,多様な視覚的手がかり,多様なLCM,異なるデータセットにまたがる手法の一般化可能性を示すものである。
論文 参考訳(メタデータ) (2024-07-04T03:50:30Z) - Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。
対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。
対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文 参考訳(メタデータ) (2024-06-05T16:09:01Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。