論文の概要: DBATES: DataBase of Audio features, Text, and visual Expressions in
competitive debate Speeches
- arxiv url: http://arxiv.org/abs/2103.14189v1
- Date: Fri, 26 Mar 2021 00:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:30:44.179853
- Title: DBATES: DataBase of Audio features, Text, and visual Expressions in
competitive debate Speeches
- Title(参考訳): DBATES:競争討論音声における音声特徴・テキスト・視覚表現のデータベース
- Authors: Taylan K. Sen, Gazi Naven, Luke Gerstner, Daryl Bagley, Raiyan Abdul
Baten, Wasifur Rahman, Kamrul Hasan, Kurtis G. Haut, Abdullah Mamun, Samiha
Samrose, Anne Solbu, R. Eric Barnes, Mark G. Frank, Ehsan Hoque
- Abstract要約: 我々は,2019年北米大学討論会(NAUDC)の討論会から抽出したマルチモーダルコミュニケーション機能データベースを提案する。
特徴セットは、視覚(表情、視線、頭のポーズ)、音声(PRAAT)、テキスト(単語感情と言語カテゴリ)のモダリティから抽出されました。
完全マルチモーダルモデルは、モダリティの様々な構成で訓練されたモデルと比較して最もよく機能する。
- 参考スコア(独自算出の注目度): 2.5347738801524775
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we present a database of multimodal communication features
extracted from debate speeches in the 2019 North American Universities Debate
Championships (NAUDC). Feature sets were extracted from the visual (facial
expression, gaze, and head pose), audio (PRAAT), and textual (word sentiment
and linguistic category) modalities of raw video recordings of competitive
collegiate debaters (N=717 6-minute recordings from 140 unique debaters). Each
speech has an associated competition debate score (range: 67-96) from expert
judges as well as competitor demographic and per-round reflection surveys. We
observe the fully multimodal model performs best in comparison to models
trained on various compositions of modalities. We also find that the weights of
some features (such as the expression of joy and the use of the word we) change
in direction between the aforementioned models. We use these results to
highlight the value of a multimodal dataset for studying competitive,
collegiate debate.
- Abstract(参考訳): 本研究では,2019年北米大学討論会(NAUDC)の討論講演から抽出したマルチモーダルコミュニケーション機能データベースを提案する。
視覚的(表情,視線,頭部ポーズ),音声(PRAAT),テキスト(言葉の感情と言語カテゴリー)から,競合するコーレギット討論者による生映像のモダリティ(N=7176分間)を抽出した。
各スピーチには、専門家の審査員と、競合する人口統計学およびラウンドごとのリフレクション調査から、関連するコンペティションのスコア(範囲67-96)がある。
完全マルチモーダルモデルは、モダリティの様々な構成で訓練されたモデルと比較して最もよく機能する。
また、いくつかの特徴(喜びの表現や単語weの使用など)の重み付けが、前述のモデル間で方向を変えることもわかりました。
これらの結果を用いて、競合的で協力的な議論を研究するためのマルチモーダルデータセットの価値を強調する。
関連論文リスト
- Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Decoding Emotions: A comprehensive Multilingual Study of Speech Models
for Speech Emotion Recognition [3.4111723103928173]
本稿では、8つの音声表現モデルと6つの異なる言語を用いた音声感情認識のための総合的ベンチマークを示す。
音声モデルの1つの最適層から得られる特徴を用いることで、7つのデータセットの平均誤差率を32%削減できることがわかった。
以上の結果から,中間層が感情認識において最も重要な感情情報を捉えていることが示唆された。
論文 参考訳(メタデータ) (2023-08-17T00:30:56Z) - Are words equally surprising in audio and audio-visual comprehension? [13.914373331208774]
同一音声刺激の音声のみおよび音声視覚提示において,各単語に関連付けられたERPシグネチャ(N400)を比較した。
以上の結果から,認知活動はマルチモーダル・アンモダル・セッティングと大きく異なることが示唆された。
これは、マルチモーダル環境における認知処理における局所語彙コンテキストの影響を顕著に示すものである。
論文 参考訳(メタデータ) (2023-07-14T11:17:37Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - Explaining Image Classification with Visual Debates [26.76139301708958]
本稿では,特定の予測を行うための連続画像分類器の推論の理解と説明のための新しい議論フレームワークを提案する。
我々の枠組みは、対戦相手が見逃した推論の道筋を拾い上げることで、競技者が様々な議論を行うよう促す。
我々は、幾何学的SHAPEおよびMNISTデータセット上で、視覚的議論を実証し、評価する(実用的な実現)。
論文 参考訳(メタデータ) (2022-10-17T12:35:52Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - DebateSum: A large-scale argument mining and summarization dataset [0.0]
DebateSumは187,386個の独特な証拠と、対応する議論と抽出的な要約で構成されている。
DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。
本稿では,全国言語討論会のメンバーによって広く活用されているデータセットの検索エンジンについて述べる。
論文 参考訳(メタデータ) (2020-11-14T10:06:57Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn
Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。
私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文 参考訳(メタデータ) (2020-04-08T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。