論文の概要: Preacher: Paper-to-Video Agentic System
- arxiv url: http://arxiv.org/abs/2508.09632v3
- Date: Fri, 15 Aug 2025 03:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 12:50:03.099641
- Title: Preacher: Paper-to-Video Agentic System
- Title(参考訳): Preacher: 紙とビデオのエージェントシステム
- Authors: Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang,
- Abstract要約: Preacherは、最初の紙対ビデオのエージェントシステムである。
研究論文を構造化ビデオ要約に分解、要約、再構成する。
5つの研究分野にまたがって高品質なビデオ抽象化を生成する。
- 参考スコア(独自算出の注目度): 44.67954266920874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper-to-video task converts a research paper into a structured video abstract, distilling key concepts, methods, and conclusions into an accessible, well-organized format. While state-of-the-art video generation models demonstrate potential, they are constrained by limited context windows, rigid video duration constraints, limited stylistic diversity, and an inability to represent domain-specific knowledge. To address these limitations, we introduce Preacher, the first paper-to-video agentic system. Preacher employs a topdown approach to decompose, summarize, and reformulate the paper, followed by bottom-up video generation, synthesizing diverse video segments into a coherent abstract. To align cross-modal representations, we define key scenes and introduce a Progressive Chain of Thought (P-CoT) for granular, iterative planning. Preacher successfully generates high-quality video abstracts across five research fields, demonstrating expertise beyond current video generation models. Code will be released at: https://github.com/GenVerse/Paper2Video
- Abstract(参考訳): 論文からビデオまでのタスクは、研究論文を構造化されたビデオ要約に変換し、重要な概念、方法、結論を、アクセスしやすく整理されたフォーマットに変換する。
最先端のビデオ生成モデルは潜在的な可能性を示しているが、それらは限られたコンテキストウィンドウ、厳密なビデオ持続時間制限、限定されたスタイル的多様性、ドメイン固有の知識を表現することができないによって制約されている。
これらの制約に対処するために、最初の紙対ビデオのエージェントシステムであるPreacherを紹介する。
Preacherは、紙を分解、要約、再構成するためにトップダウンのアプローチを採用し、続いてボトムアップのビデオ生成を行い、多様なビデオセグメントをコヒーレントな抽象に合成する。
クロスモーダルな表現を整合させるために、キーシーンを定義し、よりきめ細かな反復計画のためのP-CoT(Progressive Chain of Thought)を導入する。
Preacherは5つの研究分野にわたる高品質なビデオ抽象化を成功させ、現在のビデオ生成モデルを超えて専門性を実証した。
コードは、https://github.com/GenVerse/Paper2Videoでリリースされる。
関連論文リスト
- REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing [56.992916488077476]
本研究では,長い入力ビデオから抽出した埋め込みビデオ挿入を伴うコヒーレントな物語を特徴付けるショートを生成するための新しいビデオ編集モデルについて検討する。
本稿では,大規模言語モデルにおいて,コヒーレントなナラティブを維持しつつ,多モーダルなリソースを引用できる新しい検索組込み生成フレームワークを提案する。
提案手法は,コヒーレントなナラティブを維持しつつ,短いビデオクリップを効果的に挿入できることを示す。
論文 参考訳(メタデータ) (2025-05-24T21:36:49Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。