Fugu-MT 論文翻訳(概要): Optimal Noise pursuit for Augmenting Text-to-Video Generation

論文の概要: Optimal Noise pursuit for Augmenting Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2311.00949v1
Date: Thu, 2 Nov 2023 02:33:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 15:03:57.447884
Title: Optimal Noise pursuit for Augmenting Text-to-Video Generation
Title（参考訳）: テキスト・ビデオ・ジェネレーションのための最適ノイズ追従
Authors: Shijie Ma, Huayi Xu, Mengjian Li, Weidong Geng, Meng Wang, Yaxiong Wang
Abstract要約: テキスト・トゥ・ビデオ・モデルは、推論中にノイズの観点から不安定性を示すことが多い。探索・反転パイプラインを用いて最適な雑音を近似する。提案手法は、最適化の負担を伴わず、明確なマージンでテキスト・ビデオ・モデルを改善することができる。
参考スコア（独自算出の注目度）: 12.245076232965872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable progress in text-to-video generation, existing diffusion-based models often exhibit instability in terms of noise during inference. Specifically, when different noises are fed for the given text, these models produce videos that differ significantly in terms of both frame quality and temporal consistency. With this observation, we posit that there exists an optimal noise matched to each textual input; however, the widely adopted strategies of random noise sampling often fail to capture it. In this paper, we argue that the optimal noise can be approached through inverting the groundtruth video using the established noise-video mapping derived from the diffusion model. Nevertheless, the groundtruth video for the text prompt is not available during inference. To address this challenge, we propose to approximate the optimal noise via a search and inversion pipeline. Given a text prompt, we initially search for a video from a predefined candidate pool that closely relates to the text prompt. Subsequently, we invert the searched video into the noise space, which serves as an improved noise prompt for the textual input. In addition to addressing noise, we also observe that the text prompt with richer details often leads to higher-quality videos. Motivated by this, we further design a semantic-preserving rewriter to enrich the text prompt, where a reference-guided rewriting is devised for reasonable details compensation, and a denoising with a hybrid semantics strategy is proposed to preserve the semantic consistency. Extensive experiments on the WebVid-10M benchmark show that our proposed method can improve the text-to-video models with a clear margin, while introducing no optimization burden.
Abstract（参考訳）: テキスト・ビデオ生成の顕著な進歩にもかかわらず、既存の拡散ベースモデルは推論中にノイズの点で不安定であることが多い。具体的には、与えられたテキストに対して異なるノイズが供給される場合、これらのモデルはフレーム品質と時間的一貫性の両方で大きく異なるビデオを生成する。この観察により、各テキスト入力に最適なノイズが存在することを仮定するが、ランダムノイズサンプリングの広く採用されている戦略はしばしばそれを捉えることができない。本稿では, 拡散モデルに基づく定評定ノイズ・ビデオマッピングを用いて, 地上映像を反転させることにより最適な雑音にアプローチできることを示す。それでも、テキストプロンプトの基盤となるビデオは推論時に利用できない。この課題に対処するため,探索・反転パイプラインを用いて最適な雑音を近似する手法を提案する。テキストプロンプトが与えられたら、まず、事前に定義された候補プールから、テキストプロンプトと密接に関連するビデオを探します。その後、検索した映像を雑音空間に反転させ、テキスト入力に対するノイズプロンプトを改善する。ノイズに対処することに加えて、より詳細なテキストプロンプトが高品質なビデオにつながることも観察した。これにより,テキストプロンプトを充実させるために意味保存リライトを更に設計し,適切な詳細情報補償のために参照ガイドリライトを考案し,意味的一貫性を保つためにハイブリッドセマンティクス戦略を用いたデノイジングを提案する。 webvid-10mベンチマークの広範囲な実験により,提案手法は,最適化の負担を伴わず,明確なマージンでテキスト対ビデオモデルを改善できることを示した。

関連論文リスト

FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文参考訳（メタデータ） (2025-05-02T13:30:19Z)
Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction [17.85550556489256]
本稿では,ビデオ・サリエンシ予測のためのテキスト・オーディオ・ビジュアル・コンディショニング・ディフュージョン・モデルであるTAVDiffを提案する。テキストを効果的に活用するために、ビデオフレームのテキスト記述を生成するために、大規模なマルチモーダルモデルが使用される。聴覚のモダリティに関しては、モデルが音によって示される健全な領域に焦点を合わせるための別の条件情報として使用される。
論文参考訳（メタデータ） (2025-04-19T11:30:54Z)
Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文参考訳（メタデータ） (2024-12-04T07:26:44Z)
Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It? [26.835947209927273]
LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。
論文参考訳（メタデータ） (2024-08-07T18:24:23Z)
DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training [17.734265617973293]
任意のテキストスポッティングのための新しいDenoising Training(DNTextSpotter)を提案する。 DNTextSpotterは、denoising部のクエリをノイズのある位置クエリとノイズのあるコンテンツクエリに分解する。 4つのベンチマークで最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-08-01T07:52:07Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文参考訳（メタデータ） (2023-10-23T17:59:58Z)
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文参考訳（メタデータ） (2023-07-24T17:43:13Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。 AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文参考訳（メタデータ） (2023-05-22T10:37:27Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
Text2Video: Text-driven Talking-head Video Synthesis with Phonetic Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文参考訳（メタデータ） (2021-04-29T19:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。