論文の概要: TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.00289v1
- Date: Fri, 01 Aug 2025 03:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.723811
- Title: TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models
- Title(参考訳): TITAN-Guide:ガイド付きテキスト-ビデオ拡散モデルのための推論時間アグリグメント
- Authors: Christian Simon, Masato Ishii, Akio Hayakawa, Zhi Zhong, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: オフザシェルフモデルによるガイダンスによるトレーニングフリーコンディショニングは、ベースモデルのさらなる微調整を避けるための好都合な代替手段である。
本稿では,TITAN-Guide(TITAN-Guide)と呼ばれる,ガイド付きテキスト・ビデオ拡散モデルに対する推論時間アライメントを提案する。
提案手法は,メモリ要求を最小限に抑えるだけでなく,様々な拡散誘導ベンチマークにおけるT2V性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 21.435477418640403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the recent development of conditional diffusion models still require heavy supervised fine-tuning for performing control on a category of tasks. Training-free conditioning via guidance with off-the-shelf models is a favorable alternative to avoid further fine-tuning on the base model. However, the existing training-free guidance frameworks either have heavy memory requirements or offer sub-optimal control due to rough estimation. These shortcomings limit the applicability to control diffusion models that require intense computation, such as Text-to-Video (T2V) diffusion models. In this work, we propose Taming Inference Time Alignment for Guided Text-to-Video Diffusion Model, so-called TITAN-Guide, which overcomes memory space issues, and provides more optimal control in the guidance process compared to the counterparts. In particular, we develop an efficient method for optimizing diffusion latents without backpropagation from a discriminative guiding model. In particular, we study forward gradient descents for guided diffusion tasks with various options on directional directives. In our experiments, we demonstrate the effectiveness of our approach in efficiently managing memory during latent optimization, while previous methods fall short. Our proposed approach not only minimizes memory requirements but also significantly enhances T2V performance across a range of diffusion guidance benchmarks. Code, models, and demo are available at https://titanguide.github.io.
- Abstract(参考訳): 最近の条件付き拡散モデルの開発では、タスクのカテゴリの制御を行うために、厳密な教師付き微調整が必要である。
オフザシェルフモデルによるガイダンスによるトレーニングフリーコンディショニングは、ベースモデルのさらなる微調整を避けるための好都合な代替手段である。
しかし、既存のトレーニングフリーガイダンスフレームワークは、重いメモリ要件を持つか、大まかに見積もっているため、サブ最適制御を提供する。
これらの欠点は、テキスト・トゥ・ビデオ(T2V)拡散モデルのような激しい計算を必要とする拡散モデルを制御するための適用性を制限している。
本研究では,TITAN-Guide(TITAN-Guide)と呼ばれる,ガイド付きテキスト・ビデオ拡散モデルのための推論時間アライメントを提案する。
特に,識別誘導モデルからの逆伝播を伴わずに拡散潜水剤を最適化する効率的な手法を開発した。
特に,方向指示に対する様々な選択肢を持つ誘導拡散タスクの前方勾配降下について検討する。
本実験では, 遅延最適化におけるメモリ効率向上のための手法の有効性を実証し, 従来の手法では不十分であった。
提案手法は,メモリ要求を最小限に抑えるだけでなく,様々な拡散誘導ベンチマークにおけるT2V性能を大幅に向上させる。
コード、モデル、デモはhttps://titanguide.github.io.comで公開されている。
関連論文リスト
- Navigating Sparse Molecular Data with Stein Diffusion Guidance [48.21071466968102]
最適制御(SOC)は、微調整拡散モデルのための原則的フレームワークとして登場した。
予測されたクリーンなサンプルに対して,既成の分類器を用いて拡散モデルを導出する,トレーニング不要な手法のクラスが開発されている。
本稿では,サロゲート最適制御目標に基づく新しいトレーニングフリーガイダンスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T21:14:27Z) - Variational Control for Guidance in Diffusion Models [19.51536406897083]
本稿では,DTM(Diffusion Trajectory Matching)を提案する。
DTMは幅広いガイダンス手法を統一し、新しいインスタンス化を可能にする。
本稿では, 線形, 非線形, 盲点の逆問題に対して, 最先端の結果を得る新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-06T00:24:39Z) - Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation [49.49868273653921]
拡散モデルは、自律運転における共同軌道予測と制御可能な生成を約束する。
最適ガウス拡散(OGD)と推定クリーンマニフォールド(ECM)誘導を導入する。
提案手法は生成過程の合理化を図り,計算オーバーヘッドを低減した実用的な応用を実現する。
論文 参考訳(メタデータ) (2024-08-01T17:59:59Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Dreamguider: Improved Training free Diffusion-based Conditional Generation [31.68823843900196]
Dreamguiderは、拡散ネットワークを介して計算量の多いバックプロパゲーションを伴わない推論時ガイダンスを可能にする手法である。
提案するモジュールの有効性を示すために,複数のデータセットやモデルにまたがる複数のタスクに対してDreamguiderを用いて実験を行った。
論文 参考訳(メタデータ) (2024-06-04T17:59:32Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Towards Practical Plug-and-Play Diffusion Models [19.846094740800254]
拡散に基づく生成モデルは、画像生成において顕著な成功を収めた。
市販の市販オフザシェルフモデルのガイダンスへの直接的使用は、ノイズの多い入力のパフォーマンスが低かったために失敗する。
既存のプラクティスは、ノイズで汚染されたラベル付きデータでガイダンスモデルを微調整することです。
論文 参考訳(メタデータ) (2022-12-12T15:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。