論文の概要: Free$^2$Guide: Training-Free Text-to-Video Alignment using Image LVLM
- arxiv url: http://arxiv.org/abs/2411.17041v2
- Date: Sun, 19 Oct 2025 03:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:02.786846
- Title: Free$^2$Guide: Training-Free Text-to-Video Alignment using Image LVLM
- Title(参考訳): フリー$^2$Guide: Image LVLMを用いたトレーニングフリーのテキスト・ビデオアライメント
- Authors: Jaemin Kim, Bryan Sangwoo Kim, Jong Chul Ye,
- Abstract要約: Free$2$Guideは、生成したビデオをテキストプロンプトで整列するための、勾配のない、トレーニングなしのフレームワークである。
我々のフレームワークは、計算オーバーヘッドを伴わずにアライメントを向上させるために、複数の報酬モデルのフレキシブルアンサンブルをサポートする。
- 参考スコア(独自算出の注目度): 54.755023509791364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved impressive results in generative tasks for text-to-video (T2V) synthesis. However, achieving accurate text alignment in T2V generation remains challenging due to the complex temporal dependencies across frames. Existing reinforcement learning (RL)-based approaches to enhance text alignment often require differentiable reward functions trained for videos, hindering their scalability and applicability. In this paper, we propose \textbf{Free$^2$Guide}, a novel gradient-free and training-free framework for aligning generated videos with text prompts. Specifically, leveraging principles from path integral control, Free$^2$Guide approximates guidance for diffusion models using non-differentiable reward functions, thereby enabling the integration of powerful black-box Large Vision-Language Models (LVLMs) as reward models. To enable image-trained LVLMs to assess text-to-video alignment, we leverage \textit{stitching} between video frames and use system prompts to capture sequential attributions. Our framework supports the flexible ensembling of multiple reward models to synergistically enhance alignment without significant computational overhead. Experimental results confirm that Free$^2$Guide using image-trained LVLMs significantly improves text-to-video alignment, thereby enhancing the overall video quality. Our results and code are available at https://kjm981995.github.io/free2guide/
- Abstract(参考訳): 拡散モデルは、テキスト・トゥ・ビデオ(T2V)合成のための生成タスクにおいて驚くべき結果を得た。
しかし、フレーム間の複雑な時間的依存関係のため、T2V生成において正確なテキストアライメントを実現することは依然として困難である。
テキストアライメントを強化するための既存の強化学習(RL)ベースのアプローチは、しばしばビデオのために訓練された異なる報酬関数を必要とし、そのスケーラビリティと適用性を妨げている。
本稿では,生成した動画をテキストプロンプトで整列するための,グラデーションフリーでトレーニングフリーな新しいフレームワークである \textbf{Free$^2$Guide} を提案する。
具体的には、経路積分制御の原理を利用して、Free$^2$Guideは非微分可能報酬関数を用いた拡散モデルのガイダンスを近似し、強力なブラックボックスLVLM(Large Vision-Language Models)を報酬モデルとして統合することができる。
画像学習されたLVLMがテキストとビデオのアライメントを評価するために、ビデオフレームとシステムプロンプト間の \textit{stitching} を利用してシーケンシャルな属性をキャプチャする。
本フレームワークは,複数報酬モデルのフレキシブルアンサンブルをサポートし,計算オーバーヘッドを伴わずに相乗的にアライメントを向上する。
実験の結果,LVLMを用いたFree$2$Guideはテキストとビデオのアライメントを大幅に改善し,ビデオ全体の品質が向上することが確認された。
私たちの結果とコードはhttps://kjm981995.github.io/free2guide/で公開されています。
関連論文リスト
- Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG [6.701537544179892]
本稿では,グラフベースのRAGを組み込むことにより,テキスト・ツー・イメージ・モデルの能力を高める新しい手法を提案する。
本システムは知識グラフから詳細な文字情報と関係データを動的に取得し,視覚的・文脈的にリッチな画像の生成を可能にする。
論文 参考訳(メタデータ) (2024-12-12T18:59:41Z) - STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文 参考訳(メタデータ) (2024-12-10T18:27:06Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。