論文の概要: PresentCoach: Dual-Agent Presentation Coaching through Exemplars and Interactive Feedback
- arxiv url: http://arxiv.org/abs/2511.15253v1
- Date: Wed, 19 Nov 2025 09:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.716618
- Title: PresentCoach: Dual-Agent Presentation Coaching through Exemplars and Interactive Feedback
- Title(参考訳): PresentCoach: 経験と対話的フィードバックによるデュアルエージェントなプレゼンテーションコーチング
- Authors: Sirui Chen, Jinsong Zhou, Xinli Xu, Xiaoyu Yang, Litao Guo, Ying-Cong Chen,
- Abstract要約: 本稿では,理想提示エージェントとコーチエージェントという2つの補完的な役割を通じて,プレゼンテーション実践を支援するデュアルエージェントシステムを提案する。
理想的なプレゼンテーションエージェントは、スライド処理、視覚言語分析、ナレーションスクリプト生成、パーソナライズされた音声合成、同期されたビデオアセンブリを組み合わせることで、ユーザが提供するスライドをモデルプレゼンテーションビデオに変換する。
コーチエージェントは、これらの例に対してユーザ記録されたプレゼンテーションを評価し、マルチモーダルな音声分析を行い、オブザーバ-Impact-Suggestion (OIS)フォーマットで構造化されたフィードバックを提供する。
- 参考スコア(独自算出の注目度): 36.12055243344036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective presentation skills are essential in education, professional communication, and public speaking, yet learners often lack access to high-quality exemplars or personalized coaching. Existing AI tools typically provide isolated functionalities such as speech scoring or script generation without integrating reference modeling and interactive feedback into a cohesive learning experience. We introduce a dual-agent system that supports presentation practice through two complementary roles: the Ideal Presentation Agent and the Coach Agent. The Ideal Presentation Agent converts user-provided slides into model presentation videos by combining slide processing, visual-language analysis, narration script generation, personalized voice synthesis, and synchronized video assembly. The Coach Agent then evaluates user-recorded presentations against these exemplars, conducting multimodal speech analysis and delivering structured feedback in an Observation-Impact-Suggestion (OIS) format. To enhance the authenticity of the learning experience, the Coach Agent incorporates an Audience Agent, which simulates the perspective of a human listener and provides humanized feedback reflecting audience reactions and engagement. Together, these agents form a closed loop of observation, practice, and feedback. Implemented on a robust backend with multi-model integration, voice cloning, and error handling mechanisms, the system demonstrates how AI-driven agents can provide engaging, human-centered, and scalable support for presentation skill development in both educational and professional contexts.
- Abstract(参考訳): 効果的なプレゼンテーションスキルは、教育、専門的なコミュニケーション、公的な話し方において不可欠であるが、学習者は高品質な見習いやパーソナライズされたコーチングへのアクセスを欠いていることが多い。
既存のAIツールは、参照モデリングや対話的なフィードバックを結合学習エクスペリエンスに統合することなく、音声スコアリングやスクリプト生成などの独立した機能を提供するのが一般的である。
本稿では,理想提示エージェントとコーチエージェントという2つの補完的な役割を通じて,プレゼンテーション実践を支援するデュアルエージェントシステムを提案する。
理想的なプレゼンテーションエージェントは、スライド処理、視覚言語分析、ナレーションスクリプト生成、パーソナライズされた音声合成、同期されたビデオアセンブリを組み合わせることで、ユーザが提供するスライドをモデルプレゼンテーションビデオに変換する。
コーチエージェントは、これらの例に対してユーザ記録されたプレゼンテーションを評価し、マルチモーダルな音声分析を行い、オブザーバ-Impact-Suggestion (OIS)フォーマットで構造化されたフィードバックを提供する。
コーチエージェントは、学習体験の信頼性を高めるために、人間のリスナーの視点をシミュレートし、聴衆の反応やエンゲージメントを反映した人間化されたフィードバックを提供するオーディエンスエージェントを組み込んだ。
これらのエージェントは、観察、実践、フィードバックの閉じたループを形成する。
マルチモデル統合、音声クローン、エラー処理機構を備えた堅牢なバックエンド上に実装されたこのシステムは、AI駆動エージェントが、教育と専門の両方のコンテキストにおけるプレゼンテーションスキル開発に対して、エンゲージメント、人間中心、スケーラブルなサポートを提供する方法を示している。
関連論文リスト
- MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - LLAMAPIE: Proactive In-Ear Conversation Assistants [9.312108526830665]
我々はLlamaPIEを紹介した。LlamaPIEは、可聴デバイスを介して配信される離散的、簡潔なガイダンスを通じて、人間の会話を強化するために設計された最初のリアルタイムプロアクティブアシスタントである。
明示的なユーザ呼び出しを必要とする従来の言語モデルとは異なり、このアシスタントはバックグラウンドで動作し、会話を中断することなくユーザニーズを予測している。
論文 参考訳(メタデータ) (2025-05-07T02:08:56Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,その人が何をしているか,何が改善できるかを解説した専門家のコメントを生成する。
Ego-Exo4Dの[29]ビデオの熟練した活動と専門家の解説を、強力な言語モデルとともに活用して、このタスクのための弱い教師付きトレーニングデータセットを作成する方法を示す。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Intelligent Interface: Enhancing Lecture Engagement with Didactic Activity Summaries [0.054204929130712134]
このプロトタイプは、機械学習に基づく技術を用いて、講義のビデオ録画の中で選択された実践的、行動的な教師の特徴を認識する。
このシステムは、新しい/追加の機械学習モデルと画像およびビデオ分析のためのソフトウェアモジュールの(将来の)統合のための柔軟性を提供する。
論文 参考訳(メタデータ) (2024-06-20T12:45:23Z) - Know your audience: specializing grounded language models with listener
subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:52:08Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。