Fugu-MT 論文翻訳(概要): Mimir: Improving Video Diffusion Models for Precise Text Understanding

論文の概要: Mimir: Improving Video Diffusion Models for Precise Text Understanding

arxiv url: http://arxiv.org/abs/2412.03085v1
Date: Wed, 04 Dec 2024 07:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.582021
Title: Mimir: Improving Video Diffusion Models for Precise Text Understanding
Title（参考訳）: Mimir: 精密テキスト理解のためのビデオ拡散モデルの改善
Authors: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang,
Abstract要約: テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
参考スコア（独自算出の注目度）: 53.72393225042688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text serves as the key control signal in video generation due to its narrative nature. To render text descriptions into video clips, current video diffusion models borrow features from text encoders yet struggle with limited text comprehension. The recent success of large language models (LLMs) showcases the power of decoder-only transformers, which offers three clear benefits for text-to-video (T2V) generation, namely, precise text understanding resulting from the superior scalability, imagination beyond the input text enabled by next token prediction, and flexibility to prioritize user interests through instruction tuning. Nevertheless, the feature distribution gap emerging from the two different text modeling paradigms hinders the direct use of LLMs in established T2V models. This work addresses this challenge with Mimir, an end-to-end training framework featuring a carefully tailored token fuser to harmonize the outputs from text encoders and LLMs. Such a design allows the T2V model to fully leverage learned video priors while capitalizing on the text-related capability of LLMs. Extensive quantitative and qualitative results demonstrate the effectiveness of Mimir in generating high-quality videos with excellent text comprehension, especially when processing short captions and managing shifting motions. Project page: https://lucaria-academy.github.io/Mimir/
Abstract（参考訳）: テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。テキスト記述をビデオクリップに描画するために、現在のビデオ拡散モデルは、限られたテキスト理解に苦しむテキストエンコーダから機能を借りる。大規模言語モデル(LLM)の最近の成功は、デコーダのみのトランスフォーマーのパワーを誇示している。これは、テキスト・ビデオ(T2V)生成の3つの明確な利点、すなわち、優れたスケーラビリティから生じる正確なテキスト理解、次のトークン予測によって実現される入力テキストを超えた想像力、命令チューニングによるユーザの興味の優先順位付けの柔軟性を提供する。それでも、2つの異なるテキストモデリングパラダイムから生じる特徴分散ギャップは、確立されたT2VモデルにおけるLSMの直接的使用を妨げる。この作業は、テキストエンコーダとLLMの出力を調和させるために、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirで、この課題に対処する。このような設計により、LLMのテキスト関連能力を生かしながら、T2Vモデルで学習ビデオの事前処理を完全に活用することができる。特に短いキャプション処理やシフト動作の管理において,高画質な動画をテキスト理解で生成する上でのMimirの有効性を定量的に検証した。プロジェクトページ:https://lucaria-academy.github.io/Mimir/

関連論文リスト

Omni-Video 2: Scaling MLLM-Conditioned Diffusion for Unified Video Generation and Editing [21.525921468472685]
本稿では,事前訓練されたマルチモーダル大言語モデル(MLLM)とビデオ拡散モデルとを接続し,ビデオ生成と編集を行うスケーラブルで効率的なモデルを提案する。我々のキーとなる考え方は、MLLMの理解と推論能力を利用して、明示的なターゲットキャプションを生成し、ユーザー指示を解釈することである。我々は,微細なビデオ編集のためのFiVEベンチマークとテキスト・ツー・ビデオ生成のためのVBenchベンチマークにおいて,Omni-Video 2の性能を評価する。
論文参考訳（メタデータ） (2026-02-09T15:56:05Z)
RISE-T2V: Rephrasing and Injecting Semantics with LLM for Expansive Text-to-Video Generation [19.127189099122244]
RISE-T2Vを導入し,迅速な言い換えと意味的特徴抽出のプロセスを一つのステップに統合する。本稿では,テキスト隠れ状態を利用した拡散モデルを実現するRephrasing Adapterという革新的なモジュールを提案する。
論文参考訳（メタデータ） (2025-11-06T12:42:03Z)
Video Text Preservation with Synthetic Text-Rich Videos [5.03317364227682]
テキスト・トゥ・ビデオ(T2V)モデルは、ビデオ内で正当で一貫性のあるテキストを生成するのに苦労する。本研究では,T2V拡散モデルを改善するための軽量な手法について,合成監督法を用いて検討する。
論文参考訳（メタデータ） (2025-11-04T16:20:38Z)
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
Video-Text to Speech (VTTS) は、会話者のテキストとビデオの両方に条件付けされた音声生成タスクである。視覚,テキスト,音声の入力を共有部分空間に埋め込む,マルチモーダルデコーダのみの統合トランスフォーマモデルであるVisatronicを導入する。 LRS3でのみ訓練されたSOTA法よりも優れた4.5%のWERが得られることを示す。
論文参考訳（メタデータ） (2024-11-26T18:57:29Z)
StoryGPT-V: Large Language Models as Consistent Story Visualizers [33.68157535461168]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。本稿では,LDMとLDMの利点を生かしたemphStoryGPT-Vを提案する。
論文参考訳（メタデータ） (2023-12-04T18:14:29Z)
Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」 Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文参考訳（メタデータ） (2023-11-22T17:44:24Z)
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文参考訳（メタデータ） (2023-10-09T14:10:29Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-05-23T17:57:09Z)
Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-18T16:34:18Z)
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文参考訳（メタデータ） (2022-06-05T01:43:52Z)
All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文参考訳（メタデータ） (2022-03-14T17:06:30Z)
VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T15:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。