論文の概要: Relevance Feedback in Text-to-Image Diffusion: A Training-Free And Model-Agnostic Interactive Framework
- arxiv url: http://arxiv.org/abs/2603.14936v1
- Date: Mon, 16 Mar 2026 07:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.137016
- Title: Relevance Feedback in Text-to-Image Diffusion: A Training-Free And Model-Agnostic Interactive Framework
- Title(参考訳): テキストと画像の拡散における関連フィードバック:学習自由でモデルに依存しない対話型フレームワーク
- Authors: Wenxi Wang, Hongbin Liu, Mingqian Li, Junyan Yuan, Junqi Zhang,
- Abstract要約: 情報検索から拡散モデルへの関連フィードバック機構を適応する対話型フレームワークRFDを提案する。
RFDでは、ユーザーは認知負荷を最小限に抑えるために、明示的なテキスト対話を暗黙の多選択視覚フィードバックに置き換える。
RFDは外部のテキスト空間内で完全に動作し、トレーニング不要でモデルに依存しない汎用的なプラグアンドプレイソリューションとして機能する。
- 参考スコア(独自算出の注目度): 7.254162537916632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation using diffusion models has achieved remarkable success. However, users often possess clear visual intents but struggle to express them precisely in language, resulting in ambiguous prompts and misaligned images. Existing methods struggle to bridge this gap, typically relying on high-load textual dialogues, opaque black-box inferences, or expensive fine-tuning. They fail to simultaneously achieve low cognitive load, interpretable preference inference, and remain training-free and model-agnostic. To address this, we propose RFD, an interactive framework that adapts the relevance feedback mechanism from information retrieval to diffusion models. In RFD, users replace explicit textual dialogue with implicit, multi-select visual feedback to minimize cognitive load, easily expressing complex, multi-dimensional preferences. To translate feedback into precise generative guidance, we construct an expert-curated feature repository and introduce an information-theoretic weighted cumulative preference analysis. This white-box method calculates preferences from current-round feedback and incrementally accumulates them, avoiding the concatenation of historical interactions and preventing inference degradation caused by lengthy contexts. Furthermore, RFD employs a probabilistic sampling mechanism for prompt reconstruction to balance exploitation and exploration, preventing output homogenization. Crucially, RFD operates entirely within the external text space, making it strictly training-free and model-agnostic as a universal plug-and-play solution. Extensive experiments demonstrate that RFD effectively captures the user's true visual intent, significantly outperforming baselines in preference alignment.
- Abstract(参考訳): 拡散モデルを用いたテキスト・画像生成は驚くべき成功を収めた。
しかし、ユーザーははっきりとした視覚的意図を持っていることが多いが、それらを正確に言語で表現することは困難であり、曖昧なプロンプトと不一致の画像をもたらす。
既存の手法はこのギャップを埋めるのに苦労しており、通常は高負荷のテキスト対話、不透明なブラックボックス推論、高価な微調整に頼っている。
低い認知負荷、解釈可能な嗜好推論を同時に達成することができず、トレーニング不要でモデルに依存しないままである。
そこで我々は,情報検索から拡散モデルへの関連フィードバック機構を適応させる対話型フレームワークRFDを提案する。
RFDでは、ユーザーは認知負荷を最小限に抑えるために、明示的なテキスト対話を暗黙の多次元視覚フィードバックに置き換え、複雑で多次元的な嗜好を容易に表現する。
フィードバックを正確な生成誘導に変換するため,専門家が作成した特徴リポジトリを構築し,情報理論の重み付けされた累積的嗜好分析を導入する。
このホワイトボックス法は、現在のラウンドフィードバックから好みを計算し、それらを漸進的に蓄積し、歴史的相互作用の連結を避け、長いコンテキストによる推論劣化を防止する。
さらに、RFDは確率的サンプリング機構を用いて、エクスプロイトと探索のバランスを保ち、出力均質化を防止している。
重要なこととして、RFDは外部のテキスト空間内で完全に動作し、トレーニング不要でモデルに依存しない汎用的なプラグアンドプレイソリューションとして機能する。
大規模な実験により、RFDはユーザの真の視覚的意図を効果的に捉え、好みのアライメントにおけるベースラインを著しく上回ることを示した。
関連論文リスト
- Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文 参考訳(メタデータ) (2026-03-05T04:45:49Z) - Eliminating Hallucination in Diffusion-Augmented Interactive Text-to-Image Retrieval [11.644783748459787]
Diffusion-Augmented Interactive Text-to-Image Retrieval (DAI-TIR) は,拡散モデルによるクエリ画像の生成により検索性能を向上させる,有望なパラダイムである。
本稿では,DAI-TIRをクエリ意図と対象画像の表現に対する共同最適化として用いた,幻覚ロバスト学習フレームワークであるDiffusion-Aware Multi-view Contrastive Learning (DMCL)を提案する。
論文 参考訳(メタデータ) (2026-01-28T08:58:57Z) - Continuous-time Discrete-space Diffusion Model for Recommendation [25.432419904462694]
CDRecは、新しいContinuous-time Discrete-space Diffusion Recommendationフレームワークである。
これは推奨精度と計算効率の両方において優れている。
実世界のデータセットの実験は、推奨精度と計算効率の両方においてCDRecの優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-15T09:06:57Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets [26.167194142428475]
視覚言語モデル(VLM)は、高品質な画像テキストデータが不足しているため、しばしば構成的推論に苦しむ。
手動のアノテーションを使わずに反実データを自動的に生成するブロックベース拡散手法を提案する。
提案手法は,既存の手法に比べてトレーニングデータを大幅に少なくしながら,複数のベンチマークにまたがる最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-07-07T06:47:10Z) - Parallel Rescaling: Rebalancing Consistency Guidance for Personalized Diffusion Models [3.1964044595140217]
パーソナライズされた拡散モデルのための並列再スケーリング手法を提案する。
従来のパーソナライズ手法とは異なり、我々の手法では追加のトレーニングデータや高価なアノテーションを必要としない。
論文 参考訳(メタデータ) (2025-05-31T15:36:36Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Diffusion Generative Recommendation with Continuous Tokens [21.222713476105195]
ContRecは、連続トークンをLLMベースのRecSysにシームレスに統合するフレームワークである。
ContRecは従来型およびSOTA LLMベースのレコメンデータシステムよりも一貫して優れていることを示す。
本研究は,次世代レコメンデーションシステムにおける連続トークン化と生成モデリングの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-16T12:01:03Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。