論文の概要: Estimating Presentation Competence using Multimodal Nonverbal Behavioral
Cues
- arxiv url: http://arxiv.org/abs/2105.02636v1
- Date: Thu, 6 May 2021 13:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:17:15.493528
- Title: Estimating Presentation Competence using Multimodal Nonverbal Behavioral
Cues
- Title(参考訳): マルチモーダル非言語行動キューを用いたプレゼンテーション能力の推定
- Authors: \"Omer S\"umer and Cigdem Beyan and Fabian Ruth and Olaf Kramer and
Ulrich Trautwein and Enkelejda Kasneci
- Abstract要約: 社会的相互作用の多くの領域において、公的な講演やプレゼンテーション能力が重要な役割を担っている。
プレゼンテーション能力の効率的な開発を促進する1つのアプローチは、スピーチ中の人間の行動の自動分析である。
本研究では, 表情, ポーズベース, 音声関連機能など, さまざまな非言語行動手がかりの提示能力評価への寄与について検討する。
- 参考スコア(独自算出の注目度): 7.340483819263093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public speaking and presentation competence plays an essential role in many
areas of social interaction in our educational, professional, and everyday
life. Since our intention during a speech can differ from what is actually
understood by the audience, the ability to appropriately convey our message
requires a complex set of skills. Presentation competence is cultivated in the
early school years and continuously developed over time. One approach that can
promote efficient development of presentation competence is the automated
analysis of human behavior during a speech based on visual and audio features
and machine learning. Furthermore, this analysis can be used to suggest
improvements and the development of skills related to presentation competence.
In this work, we investigate the contribution of different nonverbal behavioral
cues, namely, facial, body pose-based, and audio-related features, to estimate
presentation competence. The analyses were performed on videos of 251 students
while the automated assessment is based on manual ratings according to the
T\"ubingen Instrument for Presentation Competence (TIP). Our classification
results reached the best performance with early fusion in the same dataset
evaluation (accuracy of 71.25%) and late fusion of speech, face, and body pose
features in the cross dataset evaluation (accuracy of 78.11%). Similarly,
regression results performed the best with fusion strategies.
- Abstract(参考訳): 公的な講演やプレゼンテーションの能力は、教育、職業、日常生活における多くの社会的相互作用において重要な役割を担っている。
発話中の意図は、聴衆が実際に理解しているものと異なるため、メッセージを伝える能力は複雑なスキルを必要とする。
プレゼンテーション能力は小学校時代から育ち、時間とともに発展してきた。
プレゼンテーション能力の効率的な開発を促進する1つのアプローチは、視覚と音声の特徴と機械学習に基づく音声中の人間の行動の自動分析である。
さらに、この分析を用いて、プレゼンテーション能力に関連するスキルの改善と開発を提案することができる。
本研究では, 表情, ポーズベース, 音声関連機能など, さまざまな非言語行動手がかりの提示能力評価への寄与について検討する。
この分析は251人の学生のビデオで行われ、自動評価はt\"ubingen instrument for presentation competence (tip) による手動評価に基づいている。
分類結果は,同一データセット評価における早期融合(71.25%の精度)と,クロスデータセット評価における発話,顔,ポーズの後期融合(78.1%の精度)で最高の成績を収めた。
同様に、回帰結果は核融合戦略で最善を尽くした。
関連論文リスト
- Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Measuring the Impact of Individual Domain Factors in Self-Supervised
Pre-Training [60.825471653739555]
音素領域因子は事前学習において重要な役割を担っているが,文法的・統語的要因はそれほど重要ではない。
本研究は,音声認識のための自己教師付き事前学習における事前学習セットのドメイン特性をよりよく理解するための最初の研究である。
論文 参考訳(メタデータ) (2022-03-01T17:40:51Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Towards the evaluation of simultaneous speech translation from a
communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。
機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文 参考訳(メタデータ) (2021-03-15T13:09:00Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - Leveraging Multimodal Behavioral Analytics for Automated Job Interview
Performance Assessment and Feedback [0.5872014229110213]
行動的手がかりは人間のコミュニケーションや認知に重要な役割を果たす。
本稿では,インタビューシナリオにおける候補の分析を行うマルチモーダル分析フレームワークを提案する。
我々はこれらのマルチモーダルデータソースを用いて複合表現を構築し、機械学習分類器を訓練してクラスラベルを予測する。
論文 参考訳(メタデータ) (2020-06-14T14:20:42Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。