論文の概要: TeViS:Translating Text Synopses to Video Storyboards
- arxiv url: http://arxiv.org/abs/2301.00135v4
- Date: Tue, 29 Aug 2023 13:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 18:58:26.680671
- Title: TeViS:Translating Text Synopses to Video Storyboards
- Title(参考訳): TeViS:ビデオストーリーボードにテキストシンセサイザーを翻訳
- Authors: Xu Gu, Yuchong Sun, Feiyue Ni, Shizhe Chen, Xihua Wang, Ruihua Song,
Boyuan Li, Xiang Cao
- Abstract要約: ビデオストーリーボード(TeViS)にテキスト合成という新しいタスクを提案する。
テキストの合成を視覚化するために、ビデオストーリーボードとして順序付けられた画像のシーケンスを検索することを目的としている。
VQ-Transはまずテキスト合成と画像を共同埋め込み空間にエンコードし、ベクトル量子化(VQ)を用いて視覚表現を改善する。
- 参考スコア(独自算出の注目度): 30.388090248346504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A video storyboard is a roadmap for video creation which consists of
shot-by-shot images to visualize key plots in a text synopsis. Creating video
storyboards, however, remains challenging which not only requires cross-modal
association between high-level texts and images but also demands long-term
reasoning to make transitions smooth across shots. In this paper, we propose a
new task called Text synopsis to Video Storyboard (TeViS) which aims to
retrieve an ordered sequence of images as the video storyboard to visualize the
text synopsis. We construct a MovieNet-TeViS dataset based on the public
MovieNet dataset. It contains 10K text synopses each paired with keyframes
manually selected from corresponding movies by considering both relevance and
cinematic coherence. To benchmark the task, we present strong CLIP-based
baselines and a novel VQ-Trans. VQ-Trans first encodes text synopsis and images
into a joint embedding space and uses vector quantization (VQ) to improve the
visual representation. Then, it auto-regressively generates a sequence of
visual features for retrieval and ordering. Experimental results demonstrate
that VQ-Trans significantly outperforms prior methods and the CLIP-based
baselines. Nevertheless, there is still a large gap compared to human
performance suggesting room for promising future work. The code and data are
available at: \url{https://ruc-aimind.github.io/projects/TeViS/}
- Abstract(参考訳): ビデオストーリーボード(英語: video storyboard)は、テキスト合成におけるキープロットを視覚化するショット・バイ・ショット画像からなる、ビデオ作成のためのロードマップである。
しかし、ビデオストーリーボードを作成することは、ハイレベルテキストと画像の相互関連だけでなく、ショット間の遷移を円滑にするための長期的な推論も要求する。
本稿では,テキストシンプシスを可視化するために,画像の順序列をビデオストーリーボードとして検索することを目的とした,text synopsis to video storyboard (tevis) という新しいタスクを提案する。
公開MovieNetデータセットに基づいてMovieNet-TeViSデータセットを構築する。
関連度と映画的コヒーレンスの両方を考慮して、対応する映画から手動で選択されたキーフレームとペアリングされた10kのテキスト合成を含む。
このタスクをベンチマークするために、強力なCLIPベースのベースラインと新しいVQ-Transを提案する。
VQ-Transはまずテキスト合成と画像を共同埋め込み空間にエンコードし、ベクトル量子化(VQ)を用いて視覚表現を改善する。
そして、検索と順序付けのための視覚特徴列を自動で生成する。
実験の結果,VQ-Transは従来の手法やCLIPベースのベースラインよりも大幅に優れていた。
それでも、将来の有望な仕事の余地を示す人間のパフォーマンスに比べれば、まだ大きなギャップがある。
コードとデータは以下の通りである。 \url{https://ruc-aimind.github.io/projects/TeViS/}
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners [47.59597017035785]
本稿では、事前訓練された画像テキストコントラストキャプタ(CoCa)モデルを再利用し、ビデオテキストタスクに適応するVideoCoCaを提案する。
VideoCoCaのゼロショット転送ベースラインは、ゼロショットビデオ分類に関する最先端の結果をすでに達成している。
我々のアプローチは、将来の研究のためのシンプルで効果的なビデオテキストベースラインを確立する。
論文 参考訳(メタデータ) (2022-12-09T16:39:09Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Visual Subtitle Feature Enhanced Video Outline Generation [23.831220964676973]
ビデオ理解タスク,すなわちビデオアウトライン生成(VOG)を導入する。
VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。
ビデオアウトライン生成モデル(VSENet)を提案する。
論文 参考訳(メタデータ) (2022-08-24T05:26:26Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。