論文の概要: Free$^2$Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.17041v1
- Date: Tue, 26 Nov 2024 02:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:33:12.541919
- Title: Free$^2$Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models
- Title(参考訳): フリー$^2$Guide:大規模ビジョンランゲージモデルによるテキスト・ビデオ生成を支援するグラディエント・フリー・パス積分制御
- Authors: Jaemin Kim, Bryan S Kim, Jong Chul Ye,
- Abstract要約: Free$2$Guideは、生成したビデオをテキストプロンプトで整列するための、勾配のないフレームワークである。
Free$2$Guideは、様々な次元にわたるテキストアライメントを大幅に改善し、生成したビデオの全体的な品質を向上させる。
- 参考スコア(独自算出の注目度): 56.289828238673124
- License:
- Abstract: Diffusion models have achieved impressive results in generative tasks like text-to-image (T2I) and text-to-video (T2V) synthesis. However, achieving accurate text alignment in T2V generation remains challenging due to the complex temporal dependency across frames. Existing reinforcement learning (RL)-based approaches to enhance text alignment often require differentiable reward functions or are constrained to limited prompts, hindering their scalability and applicability. In this paper, we propose Free$^2$Guide, a novel gradient-free framework for aligning generated videos with text prompts without requiring additional model training. Leveraging principles from path integral control, Free$^2$Guide approximates guidance for diffusion models using non-differentiable reward functions, thereby enabling the integration of powerful black-box Large Vision-Language Models (LVLMs) as reward model. Additionally, our framework supports the flexible ensembling of multiple reward models, including large-scale image-based models, to synergistically enhance alignment without incurring substantial computational overhead. We demonstrate that Free$^2$Guide significantly improves text alignment across various dimensions and enhances the overall quality of generated videos.
- Abstract(参考訳): 拡散モデルは、テキスト・トゥ・イメージ(T2I)やテキスト・トゥ・ビデオ(T2V)合成のような生成タスクにおいて驚くべき結果を得た。
しかし、フレーム間の複雑な時間依存性のため、T2V生成において正確なテキストアライメントを実現することは依然として困難である。
テキストアライメントを強化する既存の強化学習(RL)ベースのアプローチは、しばしば異なる報酬関数を必要とするか、制限されたプロンプトに制約され、そのスケーラビリティと適用性を妨げている。
本稿では,生成した動画をテキストプロンプトと整合させるための新たなグラデーションフリーフレームワークであるFree$2$Guideを提案する。
経路積分制御の原理を利用して、Free$^2$Guideは非微分可能報酬関数を用いた拡散モデルのガイダンスを近似し、強力なブラックボックスLVLM(Large Vision-Language Models)を報酬モデルとして統合する。
さらに、大規模な画像ベースモデルを含む複数の報酬モデルのフレキシブルアンサンブル化をサポートし、かなりの計算オーバーヘッドを発生させることなく、相乗的にアライメントを強化する。
Free$^2$Guideは、様々な次元にわたるテキストアライメントを大幅に改善し、生成したビデオの全体的な品質を向上させることを実証する。
関連論文リスト
- Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG [6.701537544179892]
本稿では,グラフベースのRAGを組み込むことにより,テキスト・ツー・イメージ・モデルの能力を高める新しい手法を提案する。
本システムは知識グラフから詳細な文字情報と関係データを動的に取得し,視覚的・文脈的にリッチな画像の生成を可能にする。
論文 参考訳(メタデータ) (2024-12-12T18:59:41Z) - STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文 参考訳(メタデータ) (2024-12-10T18:27:06Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。