Fugu-MT 論文翻訳(概要): Translating Text Synopses to Video Storyboards

論文の概要: Translating Text Synopses to Video Storyboards

arxiv url: http://arxiv.org/abs/2301.00135v1
Date: Sat, 31 Dec 2022 06:32:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 15:02:46.421546
Title: Translating Text Synopses to Video Storyboards
Title（参考訳）: テキスト合成をビデオストーリーボードに翻訳する
Authors: Xu Gu, Yuchong Sun, Feiyue Ni, Shizhe Chen, Ruihua Song, Boyuan Li, Xiang Cao
Abstract要約: 本研究では,テキスト合成を可視化するための順序付き画像列の検索を目的とした,TeViS (Text Synopsis to Video Storyboard) というタスクを提案する。公開MovieNetデータセットに基づいてMovieNet-TeViSベンチマークを構築し,タスクのエンコーダ-デコーダベースラインを示す。実験の結果,提案モデルが他のモデルよりも優れており,テキスト関連・コヒーレントなストーリーボードが作成できることがわかった。
参考スコア（独自算出の注目度）: 20.591573759280223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A storyboard is a roadmap for video creation which consists of shot-by-shot images to visualize key plots in a text synopsis. Creating video storyboards however remains challenging which not only requires association between high-level texts and images, but also demands for long-term reasoning to make transitions smooth across shots. In this paper, we propose a new task called Text synopsis to Video Storyboard (TeViS) which aims to retrieve an ordered sequence of images to visualize the text synopsis. We construct a MovieNet-TeViS benchmark based on the public MovieNet dataset. It contains 10K text synopses each paired with keyframes that are manually selected from corresponding movies by considering both relevance and cinematic coherence. We also present an encoder-decoder baseline for the task. The model uses a pretrained vision-and-language model to improve high-level text-image matching. To improve coherence in long-term shots, we further propose to pre-train the decoder on large-scale movie frames without text. Experimental results demonstrate that our proposed model significantly outperforms other models to create text-relevant and coherent storyboards. Nevertheless, there is still a large gap compared to human performance suggesting room for promising future work.
Abstract（参考訳）: ストーリーボード(英: storyboard)は、テキスト合成におけるキープロットを視覚化するショット・バイ・ショット画像からなる、ビデオ作成のためのロードマップである。しかし、ビデオストーリーボードの作成は、ハイレベルテキストと画像の関連性だけでなく、ショット間の遷移を円滑にするための長期的な推論も要求されるため、依然として困難である。本稿では,テキスト合成を可視化するための順序付き画像列の検索を目的とした,TeViS(Text Synopsis to Video Storyboard)というタスクを提案する。公開MovieNetデータセットに基づくMovieNet-TeViSベンチマークを構築した。それぞれにキーフレームが組み合わされた10Kテキストのシナプスを含み、関連性と撮影コヒーレンスの両方を考慮して、対応する映画から手動で選択される。また、タスクのエンコーダ・デコーダベースラインも提示する。このモデルは、事前訓練された視覚と言語モデルを使用して、高レベルのテキスト画像マッチングを改善する。長期撮影におけるコヒーレンスを改善するために,テキストなしで大規模映画のフレーム上でデコーダを事前訓練することを提案する。実験結果から,提案モデルが他のモデルよりも優れていることを示す。それでも、将来の有望な仕事の余地を示す人間のパフォーマンスに比べれば、まだ大きなギャップがある。

関連論文リスト

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
Weakly Supervised Video Representation Learning with Unaligned Text for Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文参考訳（メタデータ） (2023-03-22T08:13:25Z)
VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文参考訳（メタデータ） (2023-03-21T17:51:23Z)
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文参考訳（メタデータ） (2022-12-31T11:50:32Z)
Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners [47.59597017035785]
本稿では、事前訓練された画像テキストコントラストキャプタ(CoCa)モデルを再利用し、ビデオテキストタスクに適応するVideoCoCaを提案する。 VideoCoCaのゼロショット転送ベースラインは、ゼロショットビデオ分類に関する最先端の結果をすでに達成している。我々のアプローチは、将来の研究のためのシンプルで効果的なビデオテキストベースラインを確立する。
論文参考訳（メタデータ） (2022-12-09T16:39:09Z)
Character-Centric Story Visualization via Visual Planning and Token Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文参考訳（メタデータ） (2022-10-16T06:50:39Z)
Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文参考訳（メタデータ） (2022-10-10T22:48:08Z)
Visual Subtitle Feature Enhanced Video Outline Generation [23.831220964676973]
ビデオ理解タスク,すなわちビデオアウトライン生成(VOG)を導入する。 VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。ビデオアウトライン生成モデル(VSENet)を提案する。
論文参考訳（メタデータ） (2022-08-24T05:26:26Z)
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文参考訳（メタデータ） (2022-03-28T20:47:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。