論文の概要: Talk to Your Slides: Efficient Slide Editing Agent with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11604v1
- Date: Fri, 16 May 2025 18:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.733257
- Title: Talk to Your Slides: Efficient Slide Editing Agent with Large Language Models
- Title(参考訳): スライドに話しかける: 大きな言語モデルを用いた効率的なスライド編集エージェント
- Authors: Kyudan Jung, Hojun Cho, Jooyeol Yun, Jaehyeok Jang, Jagul Choo,
- Abstract要約: COM通信を通じて,能動的PowerPointセッション内のスライドを直接編集するエージェントであるTalk-to-Your-Slidesを紹介する。
LLMエージェントが命令を解釈し、編集計画を定式化する高レベル処理と、PythonスクリプトがPowerPointオブジェクトを直接操作する低レベル実行という2段階のアプローチを採用している。
実験結果から,Talk-to-Your-Slidesは,実行成功率,命令忠実度,編集効率において,ベースライン手法を著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 0.20660790806128532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing research on large language models (LLMs) for PowerPoint predominantly focuses on slide generation, overlooking the common yet tedious task of editing existing slides. We introduce Talk-to-Your-Slides, an LLM-powered agent that directly edits slides within active PowerPoint sessions through COM communication. Our system employs a two-level approach: (1) high-level processing where an LLM agent interprets instructions and formulates editing plans, and (2) low-level execution where Python scripts directly manipulate PowerPoint objects. Unlike previous methods relying on predefined operations, our approach enables more flexible and contextually-aware editing. To facilitate evaluation, we present TSBench, a human-annotated dataset of 379 diverse editing instructions with corresponding slide variations. Experimental results demonstrate that Talk-to-Your-Slides significantly outperforms baseline methods in execution success rate, instruction fidelity, and editing efficiency. Our code and benchmark are available at https://anonymous.4open.science/r/talk-to-your-slides/
- Abstract(参考訳): PowerPoint用の大規模言語モデル(LLM)に関する既存の研究は、スライド生成に重点を置いており、既存のスライドを編集する退屈な作業を見越している。
COM通信を通じて,アクティブPowerPointセッション内のスライドを直接編集するLLMエージェントであるTalk-to-Your-Slidesを紹介する。
LLMエージェントが命令を解釈し、編集計画を定式化するハイレベルな処理と、PythonスクリプトがPowerPointオブジェクトを直接操作する低レベルな実行である。
事前定義された操作に依存する従来の方法とは異なり、我々の手法はより柔軟でコンテキスト対応の編集を可能にする。
評価を容易にするため, TSBenchは379種類の多彩な編集命令とそれに対応するスライドのバリエーションからなる人為的注釈付きデータセットである。
実験結果から,Talk-to-Your-Slidesは,実行成功率,命令忠実度,編集効率において,ベースライン手法を著しく上回ることがわかった。
私たちのコードとベンチマークはhttps://anonymous.4open.science/r/talk-to-your-slides/で公開されています。
関連論文リスト
- From Shots to Stories: LLM-Assisted Video Editing with Unified Language Representations [0.9217021281095907]
大言語モデル(LLM)と視覚言語モデル(VLM)は、ビデオ理解において顕著な推論と一般化能力を示している。
本稿では,ビデオ編集の文脈におけるLLMの体系的研究について述べる。
論文 参考訳(メタデータ) (2025-05-18T05:25:11Z) - Generating Narrated Lecture Videos from Slides with Synchronized Highlights [55.2480439325792]
本稿では,静的スライドをビデオ講義に変換するプロセスを自動化するエンド・ツー・エンドシステムを提案する。
このシステムは、動的視覚ハイライトと正確に同期されたAI生成ナレーションを特徴とするビデオ講義を合成する。
そこで本研究では,1000個のサンプルを手動でアノテートしたスライドデータセットを用いた技術評価により,システムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-05T18:51:53Z) - Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-21T12:21:09Z) - Awaking the Slides: A Tuning-free and Knowledge-regulated AI Tutoring System via Language Model Coordination [52.20542825755132]
Slide2Lectureは、チューニング不要で知識を制御した知的チューリングシステムである。
入力された講義スライドを、不均一な教育行為の集合からなる構造化された教育課題に効果的に変換することができる。
教師や開発者にとって、Slide2Lectureはパーソナライズされた要求に対応するカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-09-11T16:03:09Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。