論文の概要: RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation
- arxiv url: http://arxiv.org/abs/2501.09982v1
- Date: Fri, 17 Jan 2025 06:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:01:04.002711
- Title: RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation
- Title(参考訳): RichSpace: テキスト埋め込み補間によるテキスト間プロンプトスペースの充実
- Authors: Yuefan Cao, Chengyue Gong, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song,
- Abstract要約: 本研究では,埋め込み空間に埋め込む最適なテキストを選択することで,この課題を克服する新しい手法を提案する。
本研究では,この手法により,ビデオ生成モデルが所望の映像を生成できることを実証する。
本研究は,テキスト埋め込みの重要性を強調し,テキスト・ビデオ・ジェネレーションの性能向上のための経路を提供する。
- 参考スコア(独自算出の注目度): 37.56422161656334
- License:
- Abstract: Text-to-video generation models have made impressive progress, but they still struggle with generating videos with complex features. This limitation often arises from the inability of the text encoder to produce accurate embeddings, which hinders the video generation model. In this work, we propose a novel approach to overcome this challenge by selecting the optimal text embedding through interpolation in the embedding space. We demonstrate that this method enables the video generation model to produce the desired videos. Additionally, we introduce a simple algorithm using perpendicular foot embeddings and cosine similarity to identify the optimal interpolation embedding. Our findings highlight the importance of accurate text embeddings and offer a pathway for improving text-to-video generation performance.
- Abstract(参考訳): テキストからビデオへの生成モデルは目覚ましい進歩を遂げているが、複雑な機能を持つビデオの生成には依然として苦戦している。
この制限は、しばしばテキストエンコーダが正確な埋め込みを生成することができないことから生じ、ビデオ生成モデルを妨げる。
本研究では,埋め込み空間における補間による最適なテキスト埋め込みを選択することで,この課題を克服する新しい手法を提案する。
提案手法は,映像生成モデルが所望の映像を生成できることを実証する。
さらに,垂直な足の埋め込みとコサイン類似性を用いた簡単なアルゴリズムを導入し,最適補間埋め込みを同定する。
本研究は,テキスト埋め込みの重要性を強調し,テキスト・ビデオ・ジェネレーションの性能向上のための経路を提供する。
関連論文リスト
- Video-Language Alignment via Spatio-Temporal Graph Transformer [26.109883502401885]
ビデオ言語アライメントは、ビデオテキスト検索や質問応答など、下流の様々なアプリケーションに恩恵をもたらす重要なタスクである。
本研究では,ビデオ言語アライメント事前学習のための空間的・時間的文脈を均一に学習する新しい時空間グラフトランスフォーマモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-16T12:52:32Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Fine-grained Text-Video Retrieval with Frozen Image Encoders [10.757101644990273]
2段階のテキストビデオ検索アーキテクチャであるCrossTVRを提案する。
第1段階では,既存のTVR手法とコサイン類似性ネットワークを利用して,効率的なテキスト/ビデオ候補選択を行う。
第2段階では,空間次元と時間次元の細粒度マルチモーダル情報をキャプチャするビデオテキストクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-14T02:57:00Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。
我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文 参考訳(メタデータ) (2020-07-29T08:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。