論文の概要: Fairness in Rating Prediction by Awareness of Verbal and Gesture Quality
of Public Speeches
- arxiv url: http://arxiv.org/abs/2012.06157v2
- Date: Wed, 16 Dec 2020 20:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 08:09:18.166453
- Title: Fairness in Rating Prediction by Awareness of Verbal and Gesture Quality
of Public Speeches
- Title(参考訳): 音声の言語的・ジェスチャー的品質の認識による評価予測の公正性
- Authors: Rupam Acharyya, Ankani Chattoraj, Shouman Das, Md. Iftekhar Tanveer,
Ehsan Hoque
- Abstract要約: 私たちは、口頭領域と非言語領域の両方でトークの質を定量化する新しいヘテロジニティメトリック、HEMを公式化します。
HEMとTEDトークの視聴者による評価との間には興味深い関係があることが示されている。
我々は,HEMの指標をニューラルネットワークの損失関数に組み込んで,人種や性別に関する評価予測における不公平さを低減することを目的とする。
- 参考スコア(独自算出の注目度): 5.729787815551408
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The role of verbal and non-verbal cues towards great public speaking has been
a topic of exploration for many decades. We identify a commonality across
present theories, the element of "variety or heterogeneity" in channels or
modes of communication (e.g. resorting to stories, scientific facts, emotional
connections, facial expressions etc.) which is essential for effectively
communicating information. We use this observation to formalize a novel
HEterogeneity Metric, HEM, that quantifies the quality of a talk both in the
verbal and non-verbal domain (transcript and facial gestures). We use TED talks
as an input repository of public speeches because it consists of speakers from
a diverse community besides having a wide outreach. We show that there is an
interesting relationship between HEM and the ratings of TED talks given to
speakers by viewers. It emphasizes that HEM inherently and successfully
represents the quality of a talk based on "variety or heterogeneity". Further,
we also discover that HEM successfully captures the prevalent bias in ratings
with respect to race and gender, that we call sensitive attributes (because
prediction based on these might result in unfair outcome). We incorporate the
HEM metric into the loss function of a neural network with the goal to reduce
unfairness in rating predictions with respect to race and gender. Our results
show that the modified loss function improves fairness in prediction without
considerably affecting prediction accuracy of the neural network. Our work ties
together a novel metric for public speeches in both verbal and non-verbal
domain with the computational power of a neural network to design a fair
prediction system for speakers.
- Abstract(参考訳): 広範に公の場で話すことに対する言語的および非言語的手がかりの役割は、何十年もの間、探究の話題となっている。
我々は、チャネルやコミュニケーションのモードにおける「多様性または不均一性」の要素である、現在の理論間の共通性を特定する(例)。
物語、科学的事実、感情的なつながり、表情などに頼るさま
効果的な情報伝達に欠かせないものです
本研究は,言語領域と非言語領域(文字と顔のジェスチャー)における発話の質を定量化する,新しいヘテロジニティー・メトリック(HEM)を定式化する。
我々はTEDトークを公開スピーチの入力レポジトリとして使用しています。
HEMとTEDトークの視聴者による評価との間には興味深い関係があることが示されている。
HEMは本質的に、"多様性"や"異質性"に基づいた講演の質を表すものだ、と氏は強調する。
さらに、HEMが人種や性別に関する評価の偏りを捉えることに成功し、センシティブな属性(これらに基づく予測が不公平な結果をもたらす可能性があるため)と呼ぶこともわかりました。
我々は,HEMの指標をニューラルネットワークの損失関数に組み込んで,人種や性別に関する評価予測における不公平さを低減することを目的とする。
本結果は,ニューラルネットワークの予測精度に大きな影響を及ぼすことなく,予測の公平性を向上することを示す。
我々の研究は、言語ドメインと非言語ドメインの両方の公開スピーチのための新しいメトリクスと、ニューラルネットワークの計算能力とを結びつけて、話者のための公正な予測システムを設計する。
関連論文リスト
- SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Probing Speech Emotion Recognition Transformers for Linguistic Knowledge [7.81884995637243]
音声認識の微調整における言語情報の利用状況について検討する。
テキストの感情を変化させながら、韻律的に中性な発話を合成する。
変圧器モデルの妥当性予測は、否定だけでなく、肯定的および否定的な感情内容に対して非常に反応するが、増強剤や還元剤には反応しない。
論文 参考訳(メタデータ) (2022-04-01T12:47:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Calibrate your listeners! Robust communication-based training for
pragmatic speakers [30.731870275051957]
本稿では,ニューラルリスナーの集団を用いた話者訓練の正規化手法を提案する。
言語ドリフトはニューラルリスナーの不確実性校正に起因していることを示す。
参照ゲームにおいて,両話者の目的を評価した結果,キャリブレーションを向上したアンサンブル方式により,話者が実用的な発話を生成できることが確認された。
論文 参考訳(メタデータ) (2021-10-11T17:07:38Z) - FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition [0.015863809575305417]
本研究では、4つの有効な音声データベース上で訓練された音声感情認識モデルFSERを紹介する。
各ベンチマークデータセットでは、FSERはこれまでに導入された最高のモデルよりも優れており、最先端のパフォーマンスを実現している。
FSERは、精神的および感情的な医療を改善するために使われる可能性がある。
論文 参考訳(メタデータ) (2021-09-15T05:03:24Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。