Fugu-MT 論文翻訳(概要): POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation

論文の概要: POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2311.00949v2
Date: Tue, 12 Mar 2024 02:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 01:37:39.669418
Title: POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation
Title（参考訳）: POS:テキスト・ビデオ・ジェネレーションのためのPrompts Optimization Suite
Authors: Shijie Ma, Huayi Xu, Mengjian Li, Weidong Geng, Meng Wang, Yaxiong Wang
Abstract要約: 本稿では、ノイズやテキストを含む2つの入力プロンプトを改善し、拡散に基づくテキスト・ビデオ生成を改善することを目的とする。テキスト・ツー・ビデオ・モデルを改善するためのトレーニング不要な Prompt Optimization Suite であるPOS を提案する。
参考スコア（独自算出の注目度）: 12.245076232965872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper targets to enhance the diffusion-based text-to-video generation by improving the two input prompts, including the noise and the text. Accommodated with this goal, we propose POS, a training-free Prompt Optimization Suite to boost text-to-video models. POS is motivated by two observations: (1) Video generation shows instability in terms of noise. Given the same text, different noises lead to videos that differ significantly in terms of both frame quality and temporal consistency. This observation implies that there exists an optimal noise matched to each textual input; To capture the potential noise, we propose an optimal noise approximator to approach the potential optimal noise. Particularly, the optimal noise approximator initially searches a video that closely relates to the text prompt and then inverts it into the noise space to serve as an improved noise prompt for the textual input. (2) Improving the text prompt via LLMs often causes semantic deviation. Many existing text-to-vision works have utilized LLMs to improve the text prompts for generation enhancement. However, existing methods often neglect the semantic alignment between the original text and the rewritten one. In response to this issue, we design a semantic-preserving rewriter to impose contraints in both rewritng and denoising phrases to preserve the semantic consistency. Extensive experiments on popular benchmarks show that our POS can improve the text-to-video models with a clear margin. The code will be open-sourced.
Abstract（参考訳）: 本稿では,雑音とテキストを含む2つの入力プロンプトを改善し,拡散に基づくテキスト対ビデオ生成の促進を目指す。この目標を達成し,テキスト・ビデオ・モデルの強化を目的としたトレーニング不要な Prompt Optimization Suite であるPOS を提案する。 POSは2つの観測によって動機付けられている:(1)映像生成は雑音の点で不安定である。同じテキストが与えられた場合、異なるノイズはフレーム品質と時間的一貫性の両方で大きく異なるビデオを生み出す。この観測は,各テキスト入力に適合する最適な雑音が存在することを示唆するものであり,潜在的な雑音を捉えるために,潜在的な最適な雑音に接近する最適な雑音近似器を提案する。特に、最適なノイズ近似器は、まずテキストプロンプトと密接に関連したビデオを検索し、次にノイズ空間に反転してテキスト入力のための改良されたノイズプロンプトとして機能する。 2) LLMによるテキストプロンプトの改善は意味的ずれを引き起こすことが多い。既存のテキスト・ツー・ビジョン作品の多くはllmを使用して、テキストプロンプトの改善と生成の強化を行っている。しかし、既存の手法は、元のテキストと書き直されたテキスト間の意味的アライメントを無視することが多い。この問題に対応するために,意味的一貫性を維持するために,文の書き直しと発音の両方に反則を課すセマンティック保存リライターを設計する。人気のあるベンチマークに関する広範囲な実験は、posがテキストからビデオへのモデルを明確なマージンで改善できることを示しています。コードはオープンソース化される。

関連論文リスト

FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文参考訳（メタデータ） (2025-05-02T13:30:19Z)
Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction [17.85550556489256]
本稿では,ビデオ・サリエンシ予測のためのテキスト・オーディオ・ビジュアル・コンディショニング・ディフュージョン・モデルであるTAVDiffを提案する。テキストを効果的に活用するために、ビデオフレームのテキスト記述を生成するために、大規模なマルチモーダルモデルが使用される。聴覚のモダリティに関しては、モデルが音によって示される健全な領域に焦点を合わせるための別の条件情報として使用される。
論文参考訳（メタデータ） (2025-04-19T11:30:54Z)
Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文参考訳（メタデータ） (2024-12-04T07:26:44Z)
Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It? [26.835947209927273]
LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。
論文参考訳（メタデータ） (2024-08-07T18:24:23Z)
DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training [17.734265617973293]
任意のテキストスポッティングのための新しいDenoising Training(DNTextSpotter)を提案する。 DNTextSpotterは、denoising部のクエリをノイズのある位置クエリとノイズのあるコンテンツクエリに分解する。 4つのベンチマークで最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-08-01T07:52:07Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文参考訳（メタデータ） (2023-10-23T17:59:58Z)
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文参考訳（メタデータ） (2023-07-24T17:43:13Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。 AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文参考訳（メタデータ） (2023-05-22T10:37:27Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
Text2Video: Text-driven Talking-head Video Synthesis with Phonetic Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文参考訳（メタデータ） (2021-04-29T19:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。