論文の概要: Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing
- arxiv url: http://arxiv.org/abs/2505.11604v3
- Date: Sun, 25 May 2025 15:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.037945
- Title: Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing
- Title(参考訳): スライドについて - 効率的なスライド編集のための言語駆動エージェント
- Authors: Kyudan Jung, Hojun Cho, Jooyeol Yun, Soyoung Yang, Jaehyeok Jang, Jaegul Choo,
- Abstract要約: 本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
- 参考スコア(独自算出の注目度): 28.792459459465515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing presentation slides remains one of the most common and time-consuming tasks faced by millions of users daily, despite significant advances in automated slide generation. Existing approaches have successfully demonstrated slide editing via graphic user interface (GUI)-based agents, offering intuitive visual control. However, such methods often suffer from high computational cost and latency. In this paper, we propose Talk-to-Your-Slides, an LLM-powered agent designed to edit slides %in active PowerPoint sessions by leveraging structured information about slide objects rather than relying on image modality. The key insight of our work is designing the editing process with distinct high-level and low-level layers to facilitate interaction between user commands and slide objects. By providing direct access to application objects rather than screen pixels, our system enables 34.02% faster processing, 34.76% better instruction fidelity, and 87.42% cheaper operation than baselines. To evaluate slide editing capabilities, we introduce TSBench, a human-annotated dataset comprising 379 diverse editing instructions paired with corresponding slide variations in four categories. Our code, benchmark and demos are available at https://anonymous.4open.science/r/Talk-to-Your-Slides-0F4C.
- Abstract(参考訳): プレゼンテーションスライドの編集は、自動スライド生成の大幅な進歩にもかかわらず、毎日数百万のユーザが直面している最も一般的で時間を要するタスクの1つだ。
既存のアプローチでは、グラフィックユーザインタフェース(GUI)ベースのエージェントによるスライド編集を成功させ、直感的な視覚制御を実現している。
しかし、そのような手法は高い計算コストと遅延に悩まされることが多い。
本稿では,画像のモダリティに頼るのではなく,スライドオブジェクトに関する構造化情報を活用することで,スライドを%のアクティブPowerPointセッションで編集するLLMエージェントであるTalk-to-Your-Slidesを提案する。
私たちの作業における重要な洞察は、ユーザコマンドとスライドオブジェクト間のインタラクションを容易にするために、異なるハイレベル層と低レベル層で編集プロセスを設計することです。
スクリーンピクセルではなくアプリケーションオブジェクトへの直接アクセスを提供することで、我々のシステムは34.02%の高速処理、34.76%の命令忠実度、87.42%の低コスト操作を可能にした。
スライド編集機能を評価するために, TSBenchを導入した。TSBenchは379種類の多様な編集命令と, 対応するスライドのバリエーションを4つのカテゴリで組み合わせたものだ。
私たちのコード、ベンチマーク、デモはhttps://anonymous.4open.science/r/Talk-to-Your-Slides-0F4Cで公開されています。
関連論文リスト
- AI-Generated Lecture Slides for Improving Slide Element Detection and Retrieval [25.517836483457803]
本稿では,大規模言語モデル(LLM)を用いた合成講義スライド生成パイプライン,SynLecSlideGenを提案する。
また、実講演スライド1050を手動でアノテートすることで、評価ベンチマーク、すなわちRealSlideを作成します。
実験結果から,合成スライドのプレトレーニングによる数発の転写学習は,実データのみのトレーニングに比べ,性能が有意に向上することがわかった。
論文 参考訳(メタデータ) (2025-06-30T08:11:31Z) - SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design [33.47715901943206]
参照画像から編集可能なスライドを生成するためのレイアウト対応検索拡張フレームワークであるSlideCoderを紹介した。
実験によると、SlideCoderは最先端のベースラインを最大40.5ポイント上回るパフォーマンスを示し、レイアウトの忠実さ、実行精度、視覚的整合性を示す。
論文 参考訳(メタデータ) (2025-06-09T17:39:48Z) - From Shots to Stories: LLM-Assisted Video Editing with Unified Language Representations [0.9217021281095907]
大言語モデル(LLM)と視覚言語モデル(VLM)は、ビデオ理解において顕著な推論と一般化能力を示している。
本稿では,ビデオ編集の文脈におけるLLMの体系的研究について述べる。
論文 参考訳(メタデータ) (2025-05-18T05:25:11Z) - Generating Narrated Lecture Videos from Slides with Synchronized Highlights [55.2480439325792]
本稿では,静的スライドをビデオ講義に変換するプロセスを自動化するエンド・ツー・エンドシステムを提案する。
このシステムは、動的視覚ハイライトと正確に同期されたAI生成ナレーションを特徴とするビデオ講義を合成する。
そこで本研究では,1000個のサンプルを手動でアノテートしたスライドデータセットを用いた技術評価により,システムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-05T18:51:53Z) - Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-21T12:21:09Z) - AutoPresent: Designing Structured Visuals from Scratch [99.766901203884]
エンド・ツー・エンドの画像生成とプログラム生成を様々なモデルでベンチマークする。
スライド生成用のコードと7kペアの命令でトレーニングされた8B LlamaベースのモデルであるAutoPresentを開発した。
論文 参考訳(メタデータ) (2025-01-01T18:09:32Z) - Awaking the Slides: A Tuning-free and Knowledge-regulated AI Tutoring System via Language Model Coordination [52.20542825755132]
Slide2Lectureは、チューニング不要で知識を制御した知的チューリングシステムである。
入力された講義スライドを、不均一な教育行為の集合からなる構造化された教育課題に効果的に変換することができる。
教師や開発者にとって、Slide2Lectureはパーソナライズされた要求に対応するカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-09-11T16:03:09Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models [52.894213114914805]
拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。
スライダは、プロンプトやサンプル画像の小さなセットを使用して作成される。
本手法は、物体の変形の修復や変形した手の固定など、安定XL拡散における持続的品質問題に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-11-20T18:59:01Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z) - Telling Stories from Computational Notebooks: AI-Assisted Presentation
Slides Creation for Presenting Data Science Work [47.558611855454195]
本稿では,NB2SlidesというAIシステムについて述べる。
NB2Slidesはディープラーニング手法とサンプルベースのプロンプトを使用して、計算ノートブックからスライドを生成する。
また、スライドをノートブックにリンクして、ユーザーがスライドを編集するのに役立つインタラクティブな視覚化も提供する。
論文 参考訳(メタデータ) (2022-03-21T16:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。