論文の概要: Optimal Noise pursuit for Augmenting Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2311.00949v1
- Date: Thu, 2 Nov 2023 02:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:03:57.447884
- Title: Optimal Noise pursuit for Augmenting Text-to-Video Generation
- Title(参考訳): テキスト・ビデオ・ジェネレーションのための最適ノイズ追従
- Authors: Shijie Ma, Huayi Xu, Mengjian Li, Weidong Geng, Meng Wang, Yaxiong
Wang
- Abstract要約: テキスト・トゥ・ビデオ・モデルは、推論中にノイズの観点から不安定性を示すことが多い。
探索・反転パイプラインを用いて最適な雑音を近似する。
提案手法は、最適化の負担を伴わず、明確なマージンでテキスト・ビデオ・モデルを改善することができる。
- 参考スコア(独自算出の注目度): 12.245076232965872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress in text-to-video generation, existing
diffusion-based models often exhibit instability in terms of noise during
inference. Specifically, when different noises are fed for the given text,
these models produce videos that differ significantly in terms of both frame
quality and temporal consistency. With this observation, we posit that there
exists an optimal noise matched to each textual input; however, the widely
adopted strategies of random noise sampling often fail to capture it. In this
paper, we argue that the optimal noise can be approached through inverting the
groundtruth video using the established noise-video mapping derived from the
diffusion model. Nevertheless, the groundtruth video for the text prompt is not
available during inference. To address this challenge, we propose to
approximate the optimal noise via a search and inversion pipeline. Given a text
prompt, we initially search for a video from a predefined candidate pool that
closely relates to the text prompt. Subsequently, we invert the searched video
into the noise space, which serves as an improved noise prompt for the textual
input. In addition to addressing noise, we also observe that the text prompt
with richer details often leads to higher-quality videos. Motivated by this, we
further design a semantic-preserving rewriter to enrich the text prompt, where
a reference-guided rewriting is devised for reasonable details compensation,
and a denoising with a hybrid semantics strategy is proposed to preserve the
semantic consistency. Extensive experiments on the WebVid-10M benchmark show
that our proposed method can improve the text-to-video models with a clear
margin, while introducing no optimization burden.
- Abstract(参考訳): テキスト・ビデオ生成の顕著な進歩にもかかわらず、既存の拡散ベースモデルは推論中にノイズの点で不安定であることが多い。
具体的には、与えられたテキストに対して異なるノイズが供給される場合、これらのモデルはフレーム品質と時間的一貫性の両方で大きく異なるビデオを生成する。
この観察により、各テキスト入力に最適なノイズが存在することを仮定するが、ランダムノイズサンプリングの広く採用されている戦略はしばしばそれを捉えることができない。
本稿では, 拡散モデルに基づく定評定ノイズ・ビデオマッピングを用いて, 地上映像を反転させることにより最適な雑音にアプローチできることを示す。
それでも、テキストプロンプトの基盤となるビデオは推論時に利用できない。
この課題に対処するため,探索・反転パイプラインを用いて最適な雑音を近似する手法を提案する。
テキストプロンプトが与えられたら、まず、事前に定義された候補プールから、テキストプロンプトと密接に関連するビデオを探します。
その後、検索した映像を雑音空間に反転させ、テキスト入力に対するノイズプロンプトを改善する。
ノイズに対処することに加えて、より詳細なテキストプロンプトが高品質なビデオにつながることも観察した。
これにより,テキストプロンプトを充実させるために意味保存リライトを更に設計し,適切な詳細情報補償のために参照ガイドリライトを考案し,意味的一貫性を保つためにハイブリッドセマンティクス戦略を用いたデノイジングを提案する。
webvid-10mベンチマークの広範囲な実験により,提案手法は,最適化の負担を伴わず,明確なマージンでテキスト対ビデオモデルを改善できることを示した。
関連論文リスト
- The Silent Prompt: Initial Noise as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
テキスト・ツー・イメージ合成(T2I)は大規模拡散モデルの出現とともに著しく進歩した。
本研究では、しばしば見過ごされるノイズ自体が固有の生成傾向を符号化し、暗黙的に出力を導く「サイレントプロンプト」として機能することを明らかにする。
本稿では,様々なユーザニーズを満たすために,あらかじめ構築したノイズライブラリから最適な初期ノイズを選択する新しい手法であるNossQueryを紹介する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。
この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文 参考訳(メタデータ) (2024-12-04T07:26:44Z) - Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It? [26.835947209927273]
LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。
本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。
提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。
論文 参考訳(メタデータ) (2024-08-07T18:24:23Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文 参考訳(メタデータ) (2021-04-29T19:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。