Fugu-MT 論文翻訳(概要): The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective

論文の概要: The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective

arxiv url: http://arxiv.org/abs/2405.08720v1
Date: Mon, 13 May 2024 02:25:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 13:28:19.859567
Title: The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective
Title（参考訳）: 失われたメロディ:ストーリーテリングの視点からのテキスト・ビデオ・ジェネレーションの実証観察
Authors: Andrew Shin, Yusuke Mori, Kunitake Kaneko,
Abstract要約: ストーリーテリングの観点からテキスト・ビデオ生成について検討するが,研究はほとんど行われていない。本稿では,映像のストーリーテリングに関する評価フレームワークを提案し,今後の方向性について論じる。
参考スコア（独自算出の注目度）: 4.471962177124311
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-video generation task has witnessed a notable progress, with the generated outcomes reflecting the text prompts with high fidelity and impressive visual qualities. However, current text-to-video generation models are invariably focused on conveying the visual elements of a single scene, and have so far been indifferent to another important potential of the medium, namely a storytelling. In this paper, we examine text-to-video generation from a storytelling perspective, which has been hardly investigated, and make empirical remarks that spotlight the limitations of current text-to-video generation scheme. We also propose an evaluation framework for storytelling aspects of videos, and discuss the potential future directions.
Abstract（参考訳）: テキスト・ビデオ生成タスクは、テキストのプロンプトに高い忠実さと印象的な視覚的特性を反映して、顕著な進歩をみせている。しかし、現在のテキスト・ビデオ生成モデルは、常に単一のシーンの視覚的要素を伝達することに集中しており、これまでのところ、媒体、すなわちストーリーテリングの別の重要なポテンシャルに無関心である。本稿では,現在検討されていないストーリーテリングの観点からのテキスト・ビデオ生成について検討し,現在のテキスト・ビデオ生成方式の限界を浮き彫りにする経験的発言を行う。また,ビデオのストーリーテリングに関する評価フレームワークを提案し,今後の方向性について考察する。

関連論文リスト

VinaBench: Benchmark for Faithful and Consistent Visual Narratives [29.111073358773698]
忠実なビジュアルな物語を生み出すという課題に対処する新しいベンチマークであるVinaBenchを提案する。以上の結果から,VinaBenchの知識制約による学習は,生成した視覚的物語の忠実性と結束性を効果的に向上させることが示された。
論文参考訳（メタデータ） (2025-03-26T18:00:03Z)
ASurvey: Spatiotemporal Consistency in Video Generation [72.82267240482874]
動的視覚生成手法を利用した映像生成手法は人工知能生成コンテンツ(AIGC)の境界を押し下げる最近の研究は、映像生成における時間的一貫性の問題に対処することを目的としているが、この観点からの文献レビューはほとんど行われていない。基礎モデル,情報表現,生成スキーム,後処理技術,評価指標の5つの重要な側面を網羅して,映像生成の最近の進歩を体系的に検討した。
論文参考訳（メタデータ） (2025-02-25T05:20:51Z)
Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation [71.32108638269517]
我々は、ストーリー指向のベンチマークであるStoryEvalを紹介し、テキスト・トゥ・ビデオ(T2V)モデルのストーリー・コンプリート機能を評価する。 StoryEvalは7つのクラスにまたがる423のプロンプトを備えている。我々は、GPT-4VやLLaVA-OV-Chat-72Bといった高度な視覚言語モデルを用いて、生成されたビデオ内の各イベントの完了を検証する。
論文参考訳（メタデータ） (2024-12-17T23:00:42Z)
The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives [3.5001789247699535]
本稿では,ジェネレーティブ・人工知能(GenAI)を利用した子ども向けのストーリーテリングを支援する教育ツールのコンセプトを紹介する。このシステムは、GenAIによる物語の共創、テキストから音声への変換、およびテキストからビデオへの生成を組み合わせることで、学習者にとって魅力的な体験を生み出す。
論文参考訳（メタデータ） (2024-09-17T15:10:23Z)
Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文参考訳（メタデータ） (2024-06-25T17:59:41Z)
StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文参考訳（メタデータ） (2023-08-22T17:53:55Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
CelebV-Text: A Large-Scale Facial Text-Video Dataset [91.22496444328151]
CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。 CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
論文参考訳（メタデータ） (2023-03-26T13:06:35Z)
What You Say Is What You Show: Visual Narration Detection in Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。 We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文参考訳（メタデータ） (2023-01-05T21:43:19Z)
Visualize Before You Write: Imagination-Guided Open-Ended Text Generation [68.96699389728964]
我々は、機械生成画像を用いて、オープンエンドテキスト生成における言語モデルをガイドするiNLGを提案する。オープンエンドテキスト生成タスクにおけるiNLGの有効性について実験と解析を行った。
論文参考訳（メタデータ） (2022-10-07T18:01:09Z)
A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文参考訳（メタデータ） (2022-02-02T16:18:41Z)
Bridging Vision and Language from the Video-to-Text Perspective: A Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文参考訳（メタデータ） (2021-03-27T02:12:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。