論文の概要: Eliminating Hallucination in Diffusion-Augmented Interactive Text-to-Image Retrieval
- arxiv url: http://arxiv.org/abs/2601.20391v1
- Date: Wed, 28 Jan 2026 08:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.857026
- Title: Eliminating Hallucination in Diffusion-Augmented Interactive Text-to-Image Retrieval
- Title(参考訳): 拡散拡大型対話型テキスト・画像検索における幻覚の除去
- Authors: Zhuocheng Zhang, Kangheng Liang, Guanxuan Li, Paul Henderson, Richard Mccreadie, Zijun Long,
- Abstract要約: Diffusion-Augmented Interactive Text-to-Image Retrieval (DAI-TIR) は,拡散モデルによるクエリ画像の生成により検索性能を向上させる,有望なパラダイムである。
本稿では,DAI-TIRをクエリ意図と対象画像の表現に対する共同最適化として用いた,幻覚ロバスト学習フレームワークであるDiffusion-Aware Multi-view Contrastive Learning (DMCL)を提案する。
- 参考スコア(独自算出の注目度): 11.644783748459787
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion-Augmented Interactive Text-to-Image Retrieval (DAI-TIR) is a promising paradigm that improves retrieval performance by generating query images via diffusion models and using them as additional ``views'' of the user's intent. However, these generative views can be incorrect because diffusion generation may introduce hallucinated visual cues that conflict with the original query text. Indeed, we empirically demonstrate that these hallucinated cues can substantially degrade DAI-TIR performance. To address this, we propose Diffusion-aware Multi-view Contrastive Learning (DMCL), a hallucination-robust training framework that casts DAI-TIR as joint optimization over representations of query intent and the target image. DMCL introduces semantic-consistency and diffusion-aware contrastive objectives to align textual and diffusion-generated query views while suppressing hallucinated query signals. This yields an encoder that acts as a semantic filter, effectively mapping hallucinated cues into a null space, improving robustness to spurious cues and better representing the user's intent. Attention visualization and geometric embedding-space analyses corroborate this filtering behavior. Across five standard benchmarks, DMCL delivers consistent improvements in multi-round Hits@10, reaching as high as 7.37\% over prior fine-tuned and zero-shot baselines, which indicates it is a general and robust training framework for DAI-TIR.
- Abstract(参考訳): Diffusion-Augmented Interactive Text-to-Image Retrieval (DAI-TIR) は,拡散モデルを用いてクエリ画像を生成し,ユーザ意図の "`views'' として使用することにより,検索性能を向上させる,有望なパラダイムである。
しかし、これらの生成ビューは、拡散生成が元のクエリテキストと矛盾する幻覚的な視覚的手がかりをもたらす可能性があるため、誤る可能性がある。
実際,これらの幻覚的手がかりがDAI-TIR性能を著しく低下させることができることを実証的に実証した。
そこで本研究では,DAI-TIRをクエリ意図と対象画像の表現に対する共同最適化として用いた,拡散認識型マルチビューコントラスト学習(DMCL)を提案する。
DMCLは意味一貫性と拡散に配慮したコントラスト的目的を導入し、幻覚的クエリ信号を抑えながらテキストおよび拡散生成クエリビューを整列させる。
これにより、セマンティックフィルタとして機能し、効果的に幻覚的キューをヌル空間にマッピングし、刺激的なキューの堅牢性を改善し、ユーザの意図を表現することができるエンコーダが得られる。
注意の可視化と幾何学的埋め込み空間解析は、このフィルタリング挙動を裏付ける。
5つの標準ベンチマークで、DMCLはHits@10の一貫性のある改善を実現している。
関連論文リスト
- Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval [11.724675700368316]
Composed Image Retrieval (CIR)は、参照画像とテキスト修正を組み合わせることで、きめ細かいビジュアル検索を可能にする。
マルチモーダルアライメントのために設計された高効率・データ効率の新たな生成編集フレームワークであるFusion-Diffを提案する。
論文 参考訳(メタデータ) (2025-12-01T13:04:55Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding [5.71478837100808]
LVLM(Large Vision-Language Models)は、存在しないオブジェクトや既存のオブジェクトを誤って含むことによって、視覚的コンテンツを不正確に反映する記述を生成する。
本稿では,入力画像をサブイメージに分割し,アテンションマップを通じて重みを割り当てることでロジット分布を結合する新しい戦略であるEnsemble Decoding (ED)を提案する。
提案手法は,提案手法の有効性を検証し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T06:35:43Z) - Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。
本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。
我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文 参考訳(メタデータ) (2025-04-16T14:03:24Z) - TMCIR: Token Merge Benefits Composed Image Retrieval [13.457620649082504]
Composed Image Retrieval (CIR)は、参照イメージと所望の修正を記述したテキストを組み合わせたマルチモーダルクエリを使用して、ターゲットイメージを検索する。
現在のCIRのクロスモーダルな特徴融合アプローチは、意図的解釈に固有のバイアスを示す。
本稿では、2つの重要な革新を通じて合成画像の検索を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T09:14:04Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition [43.01467525231004]
DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T21:20:43Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。