論文の概要: Think Bright, Diffuse Nice: Enhancing T2I-ICL via Inductive-Bias Hint Instruction and Query Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2601.06169v1
- Date: Wed, 07 Jan 2026 06:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.636262
- Title: Think Bright, Diffuse Nice: Enhancing T2I-ICL via Inductive-Bias Hint Instruction and Query Contrastive Decoding
- Title(参考訳): Diffuse Nice: インダクティブバイアスヒント命令とクエリコントラストデコーディングによるT2I-ICLの強化
- Authors: Zhiyong Ma, Zhenpeng Li, Yuanjie Shi, Zhengping Li, Jiahao Chen, Qingyuan Chuai,
- Abstract要約: Text-to-Image In-Context Learningは、インターリーブされたテキストイメージの例を通じて、カスタマイズされた画像合成を可能にする。
既存の方法は、柔軟性を制限し、デプロイメントコストを増大させる、調整されたトレーニングに依存している。
2つの補完的な閉ループ機構を統合したトレーニングフリーフレームワークTBDNを提案する。
- 参考スコア(独自算出の注目度): 10.961445998450008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image In-Context Learning (T2I-ICL) enables customized image synthesis via interleaved text-image examples but faces two mutually reinforcing bottlenecks, compliance failure and prior-dominated hallucination, that form a vicious cycle degrading generation quality. Existing methods rely on tailored training, which limits flexibility and raises deployment costs. To address these challenges effectively, we propose TBDN, a training-free framework integrating two complementary closed-loop mechanisms: Hint Instruction (HI) and Query Contrastive Decoding (QCD). HI injects task-aware inductive bias via lightweight prompt engineering to anchor models on contextual mapping rules, thereby mitigating compliance failure. QCD adjusts the decoding distributions of language models by contrasting full-input and query-omitted distributions, suppressing prior-dominated hallucination. TBDN achieves State-of-the-Art performance on CoBSAT and Text-to-Image Fast Mini-ImageNet, with robust generalization across model backbones, prompt designs, and hyperparameters. It also maintains promising performance in concept preservation and prompt following on Dreambench++. By breaking the two bottlenecks, TBDN establishes a simple yet effective framework for efficient and reliable T2I-ICL.
- Abstract(参考訳): テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)は、インターリーブド・テキスト・イメージの例を通してカスタマイズされた画像合成を可能にするが、2つの相互強化ボトルネック、コンプライアンスの失敗と事前支配された幻覚に直面する。
既存の方法は、柔軟性を制限し、デプロイメントコストを増大させる、調整されたトレーニングに依存している。
これらの課題を効果的に解決するために,Hint Instruction (HI) とQuery Contrastive Decoding (QCD) という2つの補完的なクローズドループ機構を統合したトレーニングフリーフレームワークTBDNを提案する。
HIは、軽量なプロンプトエンジニアリングを通じてタスク認識誘導バイアスを注入し、コンテキストマッピングルールのモデルをアンカーし、コンプライアンスの失敗を軽減する。
QCDは、全入力分布とクエリ省略分布を対比することにより、言語モデルの復号分布を調整し、事前支配された幻覚を抑制する。
TBDNは、CoBSATおよびText-to-Image Fast Mini-ImageNet上での最先端性能を実現し、モデルバックボーン、プロンプトデザイン、ハイパーパラメーター間で堅牢な一般化を実現している。
また、概念保存における有望なパフォーマンスを維持し、Dreambench++上でのプロンプトも行っている。
2つのボトルネックを突破することで、TBDNは効率的かつ信頼性の高いT2I-ICLのためのシンプルで効果的なフレームワークを確立する。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning [10.797460135169763]
Supervised Fine-Tuning (SFT) は、注釈の結果にのみ焦点を合わせ、基礎となる根拠を無視している。
Visual-RFT(Visual Reinforcement Fine-Tuning)は、事前トレーニング中に高品質で検証されたCoTが欠如していることから、不整合性思考鎖(CoT)を生成する。
RISE(Reason-Inspire-Strengthen-Expertise)は,これらの制限を克服するための2段階のフレームワークである。
論文 参考訳(メタデータ) (2025-08-17T17:24:35Z) - LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation [1.124958340749622]
視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。
LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。
LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-05T20:53:43Z) - Training-Free Layout-to-Image Generation with Marginal Attention Constraints [73.55660250459132]
トレーニング不要なレイアウト・トゥ・イメージ(L2I)アプローチを提案する。
具体的には、テキスト・ビジュアル・クロスアテンション・フィーチャーマップを用いて、生成された画像のレイアウトと提供された命令の不整合を定量化する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.16287352266203]
本稿では,テキスト・ツー・イメージ(T2I)モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。
APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。
APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文 参考訳(メタデータ) (2024-06-17T19:22:04Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。