論文の概要: Instant Preference Alignment for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.17718v1
- Date: Mon, 25 Aug 2025 06:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.665788
- Title: Instant Preference Alignment for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおけるインスタント・プレファレンス・アライメント
- Authors: Yang Li, Songlin Yang, Xiaoxuan Han, Wei Wang, Jing Dong, Yueming Lyu, Ziyu Xue,
- Abstract要約: 本稿では,マルチモーダル大規模言語モデル(MLLM)を基礎とした学習自由フレームワークを提案する。
嗜好理解のために,MLLMを利用して参照画像からグローバルな選好信号を自動的に抽出する。
嗜好誘導型生成では,グローバルなキーワードベース制御と局所的な領域認識の相互アテンション変調を統合した。
- 参考スコア(独自算出の注目度): 29.85008982524577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) generation has greatly enhanced creative expression, yet achieving preference-aligned generation in a real-time and training-free manner remains challenging. Previous methods often rely on static, pre-collected preferences or fine-tuning, limiting adaptability to evolving and nuanced user intents. In this paper, we highlight the need for instant preference-aligned T2I generation and propose a training-free framework grounded in multimodal large language model (MLLM) priors. Our framework decouples the task into two components: preference understanding and preference-guided generation. For preference understanding, we leverage MLLMs to automatically extract global preference signals from a reference image and enrich a given prompt using structured instruction design. Our approach supports broader and more fine-grained coverage of user preferences than existing methods. For preference-guided generation, we integrate global keyword-based control and local region-aware cross-attention modulation to steer the diffusion model without additional training, enabling precise alignment across both global attributes and local elements. The entire framework supports multi-round interactive refinement, facilitating real-time and context-aware image generation. Extensive experiments on the Viper dataset and our collected benchmark demonstrate that our method outperforms prior approaches in both quantitative metrics and human evaluations, and opens up new possibilities for dialog-based generation and MLLM-diffusion integration.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成は、創造的表現を大幅に向上させたが、リアルタイムおよびトレーニング不要な方法で好みに整合した生成を実現することは、依然として困難である。
従来のメソッドは静的で、事前にコンパイルされた好みや微調整に依存しており、ユーザの意図の進化やニュアンスに適応性を制限する。
本稿では,マルチモーダル大規模言語モデル (MLLM) に基礎を置いた学習自由フレームワークを提案する。
我々のフレームワークはタスクを2つのコンポーネントに分解する。
選好理解のために,MLLMを利用して参照画像からグローバルな選好信号を自動抽出し,構造化命令設計を用いて与えられたプロンプトを豊かにする。
弊社のアプローチは、既存の方法よりも、ユーザ好みのより広い、よりきめ細かなカバレッジをサポートする。
嗜好誘導型生成では,グローバルなキーワードベース制御と局所領域対応のクロスアテンション変調を統合して,追加のトレーニングなしに拡散モデルを操り,グローバルな属性と局所的な要素の正確なアライメントを可能にする。
フレームワーク全体がマルチラウンドのインタラクティブな改善をサポートし、リアルタイムおよびコンテキスト対応の画像生成を容易にする。
Viperデータセットと我々の収集したベンチマークの大規模な実験により、我々の手法は定量的測定と人的評価の両方において従来の手法よりも優れており、ダイアログベース生成とMLLM拡散統合の新たな可能性を開くことが示されている。
関連論文リスト
- Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models [0.0]
Local Prompt Adaptation (LPA) は、プロンプトをコンテンツやスタイルトークンに注入する、軽量でトレーニング不要な手法である。
T2Iベンチマークでは、LPAはバニラSDXLのCLIP-promptアライメントを+0.41%、SD1.5の+0.34%改善し、多様性を損なわない。
カスタムの50プロンプトスタイルリッチベンチマークでは、LPAは+0.09%のCLIPプロンプトと+0.08%のCLIPスタイルのゲインを達成した。
論文 参考訳(メタデータ) (2025-07-27T01:32:13Z) - Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Preference Adaptive and Sequential Text-to-Image Generation [24.787970969428976]
我々は、大規模なオープンソース(非シーケンシャル)データセットとともに、シーケンシャルな選好の新たなデータセットを作成します。
EM戦略を用いてユーザ嗜好モデルとユーザ選択モデルを構築し,様々なユーザ嗜好タイプを同定する。
次に,大規模マルチモーダル言語モデル (LMM) と値に基づくRLアプローチを用いて,ユーザへの迅速な拡張の適応的かつ多様なスレートを提案する。
PASTA(Preference Adaptive and Sequential Text-to-image Agent)は、適応的マルチターン機能を備えたT2Iモデルを拡張し、協調的共同創造を促進し、不確実性や不特定性に対処する。
論文 参考訳(メタデータ) (2024-12-10T01:47:40Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Harnessing the Plug-and-Play Controller by Prompting [12.705251690623495]
本稿では,事前学習言語モデル(PLM)を用いたテキスト生成におけるフレキシブル属性制御手法を提案する。
提案手法は、生成過程をPPCで導くことにより、生成したテキストの流布率を高めることを目的としている。
論文 参考訳(メタデータ) (2024-02-06T17:18:25Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Meta-Learning via Classifier(-free) Guidance [5.812784742024491]
最先端のメタ学習技術は、目に見えないタスクへのゼロショット適応を最適化しない。
本稿では,自然言語指導によるゼロショット性能向上のためのメタ学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。