論文の概要: Script-to-Slide Grounding: Grounding Script Sentences to Slide Objects for Automatic Instructional Video Generation
- arxiv url: http://arxiv.org/abs/2603.16931v1
- Date: Sat, 14 Mar 2026 09:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.268381
- Title: Script-to-Slide Grounding: Grounding Script Sentences to Slide Objects for Automatic Instructional Video Generation
- Title(参考訳): スクリプトからスライディングまでのグラウンド: 自動インストラクショナルビデオ生成のためのスライディングオブジェクトに対するスクリプト文のグラウンド化
- Authors: Rena Suzuki, Masato Kikuchi, Tadachika Ozono,
- Abstract要約: 本稿では,S2SG(Script-to-Slide Grounding)を提案する。
最初のステップとして,大言語モデル(LLM)を用いてテキストオブジェクトのグラウンド処理を行う「Text-S2SG」を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While slide-based videos augmented with visual effects are widely utilized in education and research presentations, the video editing process -- particularly applying visual effects to ground spoken content to slide objects -- remains highly labor-intensive. This study aims to develop a system that automatically generates such instructional videos from slides and corresponding scripts. As a foundational step, this paper proposes and formulates Script-to-Slide Grounding (S2SG), defined as the task of grounding script sentences to their corresponding slide objects. Furthermore, as an initial step, we propose ``Text-S2SG,'' a method that utilizes a large language model (LLM) to perform this grounding task for text objects. Our experiments demonstrate that the proposed method achieves high performance (F1-score: 0.924). The contribution of this work is the formalization of a previously implicit slide-based video editing process into a computable task, thereby paving the way for its automation.
- Abstract(参考訳): 視覚効果を付加したスライド動画は教育や研究のプレゼンテーションで広く利用されているが、映像編集プロセス(特に地上の音声コンテンツに対する視覚効果をスライドオブジェクトに適用する)は非常に労働集約的である。
本研究の目的は,スライドとそれに対応するスクリプトから,このような動画を自動的に生成するシステムを開発することである。
基礎的なステップとして,スクリプトからスライドへのグラウンドディング(S2SG)を提案し,それに対応するスライドオブジェクトに対してスクリプト文をグラウンド化するタスクとして定義する。
さらに,最初のステップとして,大言語モデル(LLM)を用いてテキストオブジェクトのグラウンド処理を行う手法である `Text-S2SG' を提案する。
提案手法は高い性能(F1スコア:0.924)を示す。
この研究の貢献は、暗黙のスライドベースのビデオ編集プロセスを計算可能なタスクにフォーマルにすることで、自動化の道を開くことである。
関連論文リスト
- Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing [28.792459459465515]
本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
論文 参考訳(メタデータ) (2025-05-16T18:12:26Z) - Generating Narrated Lecture Videos from Slides with Synchronized Highlights [55.2480439325792]
本稿では,静的スライドをビデオ講義に変換するプロセスを自動化するエンド・ツー・エンドシステムを提案する。
このシステムは、動的視覚ハイライトと正確に同期されたAI生成ナレーションを特徴とするビデオ講義を合成する。
そこで本研究では,1000個のサンプルを手動でアノテートしたスライドデータセットを用いた技術評価により,システムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-05T18:51:53Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [74.01707548681405]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。