論文の概要: E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches
- arxiv url: http://arxiv.org/abs/2110.14908v1
- Date: Thu, 28 Oct 2021 06:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:22:11.040041
- Title: E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches
- Title(参考訳): e-ffective:印象的発話の感情と効果を探索する視覚分析システム
- Authors: Kevin Maher, Zeyuan Huang, Jiancheng Song, Xiaoming Deng, Yu-Kun Lai,
Cuixia Ma, Hao Wang, Yong-Jin Liu, Hongan Wang
- Abstract要約: E-ffective(エフェクティブ)は、音声の専門家や初心者が、音声要因の役割と効果的な音声への貢献の両方を分析することのできる視覚分析システムである。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化技術がある。
- 参考スコア(独自算出の注目度): 57.279044079196105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What makes speeches effective has long been a subject for debate, and until
today there is broad controversy among public speaking experts about what
factors make a speech effective as well as the roles of these factors in
speeches. Moreover, there is a lack of quantitative analysis methods to help
understand effective speaking strategies. In this paper, we propose E-ffective,
a visual analytic system allowing speaking experts and novices to analyze both
the role of speech factors and their contribution in effective speeches. From
interviews with domain experts and investigating existing literature, we
identified important factors to consider in inspirational speeches. We obtained
the generated factors from multi-modal data that were then related to
effectiveness data. Our system supports rapid understanding of critical factors
in inspirational speeches, including the influence of emotions by means of
novel visualization methods and interaction. Two novel visualizations include
E-spiral (that shows the emotional shifts in speeches in a visually compact
way) and E-script (that connects speech content with key speech delivery
information). In our evaluation we studied the influence of our system on
experts' domain knowledge about speech factors. We further studied the
usability of the system by speaking novices and experts on assisting analysis
of inspirational speech effectiveness.
- Abstract(参考訳): スピーチを効果的にする理由は長い間議論の対象とされてきたが、今日まで公の講演の専門家の間では、スピーチを効果的にする要因と、これらの要因がスピーチにおいて果たす役割について幅広い議論が交わされている。
また,効果的な発話戦略を理解するための定量的分析手法が欠如している。
本稿では,話し手や初心者が発話要因の役割と効果的な発話への寄与の両方を分析できる視覚分析システムであるE-ffectiveを提案する。
ドメインエキスパートへのインタビューや既存文献の調査から、インスピレーションのあるスピーチで考慮すべき重要な要素を抽出した。
実効性データと関係のあるマルチモーダルデータから生成した因子を得た。
本システムは,新たな可視化手法とインタラクションによる感情の影響を含む,インスピレーション音声における臨界因子の迅速な理解を支援する。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化手法である。
評価では,言語要因に関する専門家のドメイン知識に対するシステムの影響を検討した。
さらに,刺激的発話効果の分析支援を行う初心者・専門家を対象に,システムのユーザビリティについて検討した。
関連論文リスト
- SemEval-2024 Task 3: Multimodal Emotion Cause Analysis in Conversations [53.60993109543582]
SemEval-2024 Task 3 "Multimodal Emotion Cause Analysis in Conversations" は、会話からすべての感情とそれに対応する原因を抽出することを目的としている。
異なるモダリティ設定の下では、2つのサブタスクから構成される: 会話におけるテキスト感情因果ペア抽出(TECPE)と会話におけるマルチモーダル感情因果ペア抽出(MECPE)である。
本稿では,タスク,データセット,評価設定について紹介し,トップチームのシステムを要約し,参加者の知見について議論する。
論文 参考訳(メタデータ) (2024-05-19T09:59:00Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Explaining (Sarcastic) Utterances to Enhance Affect Understanding in
Multimodal Dialogues [40.80696210030204]
本稿では,マルチモーダル(皮肉)対話インスタンスを入力とし,その説明として自然言語文を生成する深層ニューラルネットワーク MOSES を提案する。
本研究では, サルカズム検出, ユーモア識別, 感情認識など, 対話型対話システムにおいて, 様々な自然言語理解タスクに対して生成した説明を活用する。
評価結果から,MOSESはSEDの最先端システムよりも平均2%高い性能を示した。
論文 参考訳(メタデータ) (2022-11-20T18:05:43Z) - Social Influence Dialogue Systems: A Scoping Survey of the Efforts
Towards Influence Capabilities of Dialogue Systems [50.57882213439553]
社会影響対話システムは、説得、交渉、治療を行うことができる。
これらのスキルを備えた対話システムには、正式な定義やカテゴリは存在しない。
この研究は、この新興地域でのより専用の研究と議論を促すために、社会影響対話システムの包括的参照となる。
論文 参考訳(メタデータ) (2022-10-11T17:57:23Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。