論文の概要: Mimir: Improving Video Diffusion Models for Precise Text Understanding
- arxiv url: http://arxiv.org/abs/2412.03085v1
- Date: Wed, 04 Dec 2024 07:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:16.140537
- Title: Mimir: Improving Video Diffusion Models for Precise Text Understanding
- Title(参考訳): Mimir: 精密テキスト理解のためのビデオ拡散モデルの改善
- Authors: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang,
- Abstract要約: テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。
この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
- 参考スコア(独自算出の注目度): 53.72393225042688
- License:
- Abstract: Text serves as the key control signal in video generation due to its narrative nature. To render text descriptions into video clips, current video diffusion models borrow features from text encoders yet struggle with limited text comprehension. The recent success of large language models (LLMs) showcases the power of decoder-only transformers, which offers three clear benefits for text-to-video (T2V) generation, namely, precise text understanding resulting from the superior scalability, imagination beyond the input text enabled by next token prediction, and flexibility to prioritize user interests through instruction tuning. Nevertheless, the feature distribution gap emerging from the two different text modeling paradigms hinders the direct use of LLMs in established T2V models. This work addresses this challenge with Mimir, an end-to-end training framework featuring a carefully tailored token fuser to harmonize the outputs from text encoders and LLMs. Such a design allows the T2V model to fully leverage learned video priors while capitalizing on the text-related capability of LLMs. Extensive quantitative and qualitative results demonstrate the effectiveness of Mimir in generating high-quality videos with excellent text comprehension, especially when processing short captions and managing shifting motions. Project page: https://lucaria-academy.github.io/Mimir/
- Abstract(参考訳): テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
テキスト記述をビデオクリップに描画するために、現在のビデオ拡散モデルは、限られたテキスト理解に苦しむテキストエンコーダから機能を借りる。
大規模言語モデル(LLM)の最近の成功は、デコーダのみのトランスフォーマーのパワーを誇示している。これは、テキスト・ビデオ(T2V)生成の3つの明確な利点、すなわち、優れたスケーラビリティから生じる正確なテキスト理解、次のトークン予測によって実現される入力テキストを超えた想像力、命令チューニングによるユーザの興味の優先順位付けの柔軟性を提供する。
それでも、2つの異なるテキストモデリングパラダイムから生じる特徴分散ギャップは、確立されたT2VモデルにおけるLSMの直接的使用を妨げる。
この作業は、テキストエンコーダとLLMの出力を調和させるために、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirで、この課題に対処する。
このような設計により、LLMのテキスト関連能力を生かしながら、T2Vモデルで学習ビデオの事前処理を完全に活用することができる。
特に短いキャプション処理やシフト動作の管理において,高画質な動画をテキスト理解で生成する上でのMimirの有効性を定量的に検証した。
プロジェクトページ:https://lucaria-academy.github.io/Mimir/
関連論文リスト
- Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。
本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文 参考訳(メタデータ) (2023-10-09T14:10:29Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。