論文の概要: Paper2Video: Automatic Video Generation from Scientific Papers
- arxiv url: http://arxiv.org/abs/2510.05096v1
- Date: Mon, 06 Oct 2025 17:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.049315
- Title: Paper2Video: Automatic Video Generation from Scientific Papers
- Title(参考訳): Paper2Video:科学論文からの自動ビデオ生成
- Authors: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou,
- Abstract要約: PaperTalkerは、著者が作ったプレゼンテーションビデオ、スライド、スピーカーメタデータと組み合わせた101の研究論文の最初のベンチマークである。
スライド生成と効果的なレイアウト改善を、新しい効果的なツリー探索視覚選択、カーソルグラウンド、サブタイリング、音声合成、トーキングヘッドレンダリングによって統合する。
Paper2Videoの実験では,提案手法によるプレゼンテーションビデオは,既存のベースラインよりも忠実で有意義であることが示された。
- 参考スコア(独自算出の注目度): 62.634562246594555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic presentation videos have become an essential medium for research communication, yet producing them remains highly labor-intensive, often requiring hours of slide design, recording, and editing for a short 2 to 10 minutes video. Unlike natural video, presentation video generation involves distinctive challenges: inputs from research papers, dense multi-modal information (text, figures, tables), and the need to coordinate multiple aligned channels such as slides, subtitles, speech, and human talker. To address these challenges, we introduce PaperTalker, the first benchmark of 101 research papers paired with author-created presentation videos, slides, and speaker metadata. We further design four tailored evaluation metrics--Meta Similarity, PresentArena, PresentQuiz, and IP Memory--to measure how videos convey the paper's information to the audience. Building on this foundation, we propose PaperTalker, the first multi-agent framework for academic presentation video generation. It integrates slide generation with effective layout refinement by a novel effective tree search visual choice, cursor grounding, subtitling, speech synthesis, and talking-head rendering, while parallelizing slide-wise generation for efficiency. Experiments on Paper2Video demonstrate that the presentation videos produced by our approach are more faithful and informative than existing baselines, establishing a practical step toward automated and ready-to-use academic video generation. Our dataset, agent, and code are available at https://github.com/showlab/Paper2Video.
- Abstract(参考訳): 学術的なプレゼンテーションビデオは研究コミュニケーションに欠かせない媒体となっているが、制作には労働集約的であり、短い2~10分間のスライドデザイン、記録、編集に何時間も要することが多い。
ナチュラルビデオとは異なり、プレゼンテーションビデオ生成には、研究論文からの入力、密集したマルチモーダル情報(テキスト、図形、表)、スライド、字幕、スピーチ、ヒューマンスポータといった複数のチャンネルを協調する必要性など、固有の課題が含まれる。
これらの課題に対処するため、著者が作成したプレゼンテーションビデオ、スライド、スピーカーメタデータと組み合わせた101の研究論文の最初のベンチマークであるPaperTalkerを紹介した。
さらに、ビデオが紙の情報を聴衆に伝える方法を測定するために、メタ類似性、現在Arena、現在Quiz、IPメモリの4つの調整された評価指標を設計する。
この基礎の上に構築されたPaperTalkerは,学術プレゼンテーションビデオ生成のための最初のマルチエージェントフレームワークである。
スライド生成と効果的なレイアウト改善を両立させ、効率的なツリー探索視覚選択、カーソルグラウンド、サブタイリング、音声合成、トーキングヘッドレンダリングを実現し、スライドワイズ生成を効率よく並列化する。
論文2ビデオの実験では,提案手法によるプレゼンテーションビデオは,既存のベースラインよりも忠実で情報的であり,自動かつ使用可能なアカデミックビデオ生成に向けた実践的なステップが確立されている。
私たちのデータセット、エージェント、コードはhttps://github.com/showlab/Paper2Video.orgから入手可能です。
関連論文リスト
- Vidi: Large Multimodal Models for Video Understanding and Editing [38.391725386019324]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
論文 参考訳(メタデータ) (2025-04-22T08:04:45Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - AI based Presentation Creator With Customized Audio Content Delivery [0.0]
本稿では,機械学習(ML)アルゴリズムと自然言語処理(NLP)モジュールを用いて,文書からスライドベースのプレゼンテーションを作成するプロセスを自動化することを目的とする。
次に、最先端の音声クローンモデルを使用して、希望する著者の声にコンテンツを配信します。
論文 参考訳(メタデータ) (2021-06-27T12:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。