論文の概要: Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing
- arxiv url: http://arxiv.org/abs/2505.11604v2
- Date: Tue, 20 May 2025 12:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.402471
- Title: Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing
- Title(参考訳): スライドについて - 効率的なスライド編集のための言語駆動エージェント
- Authors: Kyudan Jung, Hojun Cho, Jooyeol Yun, Soyoung Yang, Jaehyeok Jang, Jagul Choo,
- Abstract要約: 本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
- 参考スコア(独自算出の注目度): 1.9683728720688352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing presentation slides remains one of the most common and time-consuming tasks faced by millions of users daily, despite significant advances in automated slide generation. Existing approaches have successfully demonstrated slide editing via graphic user interface (GUI)-based agents, offering intuitive visual control. However, such methods often suffer from high computational cost and latency. In this paper, we propose Talk-to-Your-Slides, an LLM-powered agent designed to edit slides %in active PowerPoint sessions by leveraging structured information about slide objects rather than relying on image modality. The key insight of our work is designing the editing process with distinct high-level and low-level layers to facilitate interaction between user commands and slide objects. By providing direct access to application objects rather than screen pixels, our system enables 34.02% faster processing, 34.76% better instruction fidelity, and 87.42% cheaper operation than baselines. To evaluate slide editing capabilities, we introduce TSBench, a human-annotated dataset comprising 379 diverse editing instructions paired with corresponding slide variations in four categories. Our code, benchmark and demos are available at https://anonymous.4open.science/r/Talk-to-Your-Slides-0F4C.
- Abstract(参考訳): プレゼンテーションスライドの編集は、自動スライド生成の大幅な進歩にもかかわらず、毎日数百万のユーザが直面している最も一般的で時間を要するタスクの1つだ。
既存のアプローチでは、グラフィックユーザインタフェース(GUI)ベースのエージェントによるスライド編集を成功させ、直感的な視覚制御を実現している。
しかし、そのような手法は高い計算コストと遅延に悩まされることが多い。
本稿では,画像のモダリティに頼るのではなく,スライドオブジェクトに関する構造化情報を活用することで,スライドを%のアクティブPowerPointセッションで編集するLLMエージェントであるTalk-to-Your-Slidesを提案する。
私たちの作業における重要な洞察は、ユーザコマンドとスライドオブジェクト間のインタラクションを容易にするために、異なるハイレベル層と低レベル層で編集プロセスを設計することです。
スクリーンピクセルではなくアプリケーションオブジェクトへの直接アクセスを提供することで、我々のシステムは34.02%の高速処理、34.76%の命令忠実度、87.42%の低コスト操作を可能にした。
スライド編集機能を評価するために, TSBenchを導入した。TSBenchは379種類の多様な編集命令と, 対応するスライドのバリエーションを4つのカテゴリで組み合わせたものだ。
私たちのコード、ベンチマーク、デモはhttps://anonymous.4open.science/r/Talk-to-Your-Slides-0F4Cで公開されています。
関連論文リスト
- From Shots to Stories: LLM-Assisted Video Editing with Unified Language Representations [0.9217021281095907]
大言語モデル(LLM)と視覚言語モデル(VLM)は、ビデオ理解において顕著な推論と一般化能力を示している。
本稿では,ビデオ編集の文脈におけるLLMの体系的研究について述べる。
論文 参考訳(メタデータ) (2025-05-18T05:25:11Z) - Generating Narrated Lecture Videos from Slides with Synchronized Highlights [55.2480439325792]
本稿では,静的スライドをビデオ講義に変換するプロセスを自動化するエンド・ツー・エンドシステムを提案する。
このシステムは、動的視覚ハイライトと正確に同期されたAI生成ナレーションを特徴とするビデオ講義を合成する。
そこで本研究では,1000個のサンプルを手動でアノテートしたスライドデータセットを用いた技術評価により,システムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-05T18:51:53Z) - Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-21T12:21:09Z) - Awaking the Slides: A Tuning-free and Knowledge-regulated AI Tutoring System via Language Model Coordination [52.20542825755132]
Slide2Lectureは、チューニング不要で知識を制御した知的チューリングシステムである。
入力された講義スライドを、不均一な教育行為の集合からなる構造化された教育課題に効果的に変換することができる。
教師や開発者にとって、Slide2Lectureはパーソナライズされた要求に対応するカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-09-11T16:03:09Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。