論文の概要: AI-Generated Lecture Slides for Improving Slide Element Detection and Retrieval
- arxiv url: http://arxiv.org/abs/2506.23605v1
- Date: Mon, 30 Jun 2025 08:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.970363
- Title: AI-Generated Lecture Slides for Improving Slide Element Detection and Retrieval
- Title(参考訳): スライド要素の検出と検索を改善するAI生成講義スライド
- Authors: Suyash Maniyar, Vishvesh Trivedi, Ajoy Mondal, Anand Mishra, C. V. Jawahar,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いた合成講義スライド生成パイプライン,SynLecSlideGenを提案する。
また、実講演スライド1050を手動でアノテートすることで、評価ベンチマーク、すなわちRealSlideを作成します。
実験結果から,合成スライドのプレトレーニングによる数発の転写学習は,実データのみのトレーニングに比べ,性能が有意に向上することがわかった。
- 参考スコア(独自算出の注目度): 25.517836483457803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lecture slide element detection and retrieval are key problems in slide understanding. Training effective models for these tasks often depends on extensive manual annotation. However, annotating large volumes of lecture slides for supervised training is labor intensive and requires domain expertise. To address this, we propose a large language model (LLM)-guided synthetic lecture slide generation pipeline, SynLecSlideGen, which produces high-quality, coherent and realistic slides. We also create an evaluation benchmark, namely RealSlide by manually annotating 1,050 real lecture slides. To assess the utility of our synthetic slides, we perform few-shot transfer learning on real data using models pre-trained on them. Experimental results show that few-shot transfer learning with pretraining on synthetic slides significantly improves performance compared to training only on real data. This demonstrates that synthetic data can effectively compensate for limited labeled lecture slides. The code and resources of our work are publicly available on our project website: https://synslidegen.github.io/.
- Abstract(参考訳): 講演スライド要素の検出と検索は,スライド理解における重要な問題である。
これらのタスクに対する効果的なモデルのトレーニングは、しばしば広範囲のマニュアルアノテーションに依存する。
しかし、指導訓練のために大量の講義スライドを注釈付けすることは労働集約的であり、ドメインの専門知識を必要とする。
そこで本研究では,高品質でコヒーレントでリアルなスライドを生成する,大規模言語モデル(LLM)を用いた合成講義スライド生成パイプラインSynLecSlideGenを提案する。
また、実講演スライド1050を手動でアノテートすることで、評価ベンチマーク、すなわちRealSlideを作成します。
合成スライドの有効性を評価するため,事前学習したモデルを用いて,実データ上で数発の転写学習を行う。
実験結果から,合成スライドのプレトレーニングによる数発の転写学習は,実データのみのトレーニングに比べ,性能が有意に向上することがわかった。
このことは,限られたラベル付き講義スライドに対して,合成データが効果的に補償できることを証明している。
私たちの作業のコードとリソースは、プロジェクトのWebサイト(https://synslidegen.github.io/)で公開されています。
関連論文リスト
- SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design [33.47715901943206]
参照画像から編集可能なスライドを生成するためのレイアウト対応検索拡張フレームワークであるSlideCoderを紹介した。
実験によると、SlideCoderは最先端のベースラインを最大40.5ポイント上回るパフォーマンスを示し、レイアウトの忠実さ、実行精度、視覚的整合性を示す。
論文 参考訳(メタデータ) (2025-06-09T17:39:48Z) - Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing [28.792459459465515]
本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
論文 参考訳(メタデータ) (2025-05-16T18:12:26Z) - Generating Narrated Lecture Videos from Slides with Synchronized Highlights [55.2480439325792]
本稿では,静的スライドをビデオ講義に変換するプロセスを自動化するエンド・ツー・エンドシステムを提案する。
このシステムは、動的視覚ハイライトと正確に同期されたAI生成ナレーションを特徴とするビデオ講義を合成する。
そこで本研究では,1000個のサンプルを手動でアノテートしたスライドデータセットを用いた技術評価により,システムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-05T18:51:53Z) - AutoPresent: Designing Structured Visuals from Scratch [99.766901203884]
エンド・ツー・エンドの画像生成とプログラム生成を様々なモデルでベンチマークする。
スライド生成用のコードと7kペアの命令でトレーニングされた8B LlamaベースのモデルであるAutoPresentを開発した。
論文 参考訳(メタデータ) (2025-01-01T18:09:32Z) - Awaking the Slides: A Tuning-free and Knowledge-regulated AI Tutoring System via Language Model Coordination [52.20542825755132]
Slide2Lectureは、チューニング不要で知識を制御した知的チューリングシステムである。
入力された講義スライドを、不均一な教育行為の集合からなる構造化された教育課題に効果的に変換することができる。
教師や開発者にとって、Slide2Lectureはパーソナライズされた要求に対応するカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-09-11T16:03:09Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。