論文の概要: Enhancing Public Speaking Skills in Engineering Students Through AI
- arxiv url: http://arxiv.org/abs/2511.04995v1
- Date: Fri, 07 Nov 2025 05:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.685471
- Title: Enhancing Public Speaking Skills in Engineering Students Through AI
- Title(参考訳): AIによる工学生の公開講演スキル向上
- Authors: Amol Harsh, Brainerd Prince, Siddharth Siddharth, Deepan Raj Prabakar Muthirayan, Kabir S Bhalla, Esraaj Sarkar Gupta, Siddharth Sahu,
- Abstract要約: この研究から実践までの全論文は、工学生間の効果的なコミュニケーションにおける永続的な課題に着想を得たものである。
様々な利害関係者と技術的な知識を伝える必要があるため、将来のエンジニアにとってパブリックな講演は必要なスキルである。
本研究は, 工学生を対象としたAIによる評価モデルの構築を目的として, 公言における口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭
- 参考スコア(独自算出の注目度): 0.48861336570452174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research-to-practice full paper was inspired by the persistent challenge in effective communication among engineering students. Public speaking is a necessary skill for future engineers as they have to communicate technical knowledge with diverse stakeholders. While universities offer courses or workshops, they are unable to offer sustained and personalized training to students. Providing comprehensive feedback on both verbal and non-verbal aspects of public speaking is time-intensive, making consistent and individualized assessment impractical. This study integrates research on verbal and non-verbal cues in public speaking to develop an AI-driven assessment model for engineering students. Our approach combines speech analysis, computer vision, and sentiment detection into a multi-modal AI system that provides assessment and feedback. The model evaluates (1) verbal communication (pitch, loudness, pacing, intonation), (2) non-verbal communication (facial expressions, gestures, posture), and (3) expressive coherence, a novel integration ensuring alignment between speech and body language. Unlike previous systems that assess these aspects separately, our model fuses multiple modalities to deliver personalized, scalable feedback. Preliminary testing demonstrated that our AI-generated feedback was moderately aligned with expert evaluations. Among the state-of-the-art AI models evaluated, all of which were Large Language Models (LLMs), including Gemini and OpenAI models, Gemini Pro emerged as the best-performing, showing the strongest agreement with human annotators. By eliminating reliance on human evaluators, this AI-driven public speaking trainer enables repeated practice, helping students naturally align their speech with body language and emotion, crucial for impactful and professional communication.
- Abstract(参考訳): この研究から実践までの全論文は、工学生間の効果的なコミュニケーションにおける永続的な課題に着想を得たものである。
様々な利害関係者と技術的な知識を伝える必要があるため、将来のエンジニアにとってパブリックな講演は必要なスキルである。
大学はコースやワークショップを提供しているが、持続的でパーソナライズされたトレーニングを学生に提供することはできない。
公用語の言語的側面と非言語的側面の両方に関する包括的なフィードバックを提供することは、時間集約的であり、一貫した個別化された評価を非現実的にする。
本研究は, 工学系学生を対象としたAIによる評価モデルの構築を目的として, 公言における口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口頭・口
我々のアプローチは、音声分析、コンピュータビジョン、感情検出を、評価とフィードバックを提供するマルチモーダルAIシステムに統合する。
本モデルは,(1)言語コミュニケーション(ピッチ,ラウドネス,ペーシング,イントネーション),(2)非言語コミュニケーション(表情,ジェスチャー,姿勢),(3)表現的一貫性(表現的コヒーレンス)を評価する。
これらの側面を個別に評価する従来のシステムとは異なり、私たちのモデルはパーソナライズされたスケーラブルなフィードバックを提供するために複数のモダリティを融合します。
予備的なテストでは、AIが生成したフィードバックが専門家の評価と適度に一致していることが示されました。
GeminiやOpenAIモデルなど、すべてLLM(Large Language Models)が評価された最先端AIモデルの中で、Gemini Proが最高のパフォーマンスを示し、人間のアノテータとの強い合意を示している。
人間の評価への依存をなくすことで、このAI駆動の公話トレーナーは、繰り返し練習を可能にし、学生が言葉と感情を自然に一致させるのを助ける。
関連論文リスト
- Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders [10.664605070306417]
音声障害者を対象としたゼロショット学習によるジェスチャー認識自動音声認識(ASR)システムを提案する。
実験結果と分析結果から,ジェスチャー情報を含むと意味理解が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T14:15:55Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind [51.45478233267092]
認知にインスパイアされたニューロシンボリックモデルであるスポークインストラクション(Spken Instruction following through Theory of Mind, SIFToM)を提案する。
SIFToMはモデルに基づくメンタル推論を備えたビジョンランゲージモデルを使用して、多様な音声条件下でロボットが現実的に人間の指示に従うことを可能にする。
その結果、SIFToMは、軽量ベースVLM(Gemini 2.5 Flash)の性能を大幅に向上し、最先端のVLM(Gemini 2.5 Pro)より優れ、タスク後の音声指示に挑戦する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。
我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。
4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文 参考訳(メタデータ) (2024-07-25T16:39:21Z) - Towards More Human-like AI Communication: A Review of Emergent
Communication Research [0.0]
創発的コミュニケーション(英: Emergent Communication, Emecom)は、自然言語を利用できる人工エージェントの開発を目的とした研究分野である。
本稿では,文献の共通点と,それらが人間同士の相互作用にどのように関係しているかを概説する。
2つのサブカテゴリを特定し、その特性とオープンな課題を強調します。
論文 参考訳(メタデータ) (2023-08-01T14:43:10Z) - Estimating Presentation Competence using Multimodal Nonverbal Behavioral
Cues [7.340483819263093]
社会的相互作用の多くの領域において、公的な講演やプレゼンテーション能力が重要な役割を担っている。
プレゼンテーション能力の効率的な開発を促進する1つのアプローチは、スピーチ中の人間の行動の自動分析である。
本研究では, 表情, ポーズベース, 音声関連機能など, さまざまな非言語行動手がかりの提示能力評価への寄与について検討する。
論文 参考訳(メタデータ) (2021-05-06T13:09:41Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。