論文の概要: Beyond the Labels: Unveiling Text-Dependency in Paralinguistic Speech Recognition Datasets
- arxiv url: http://arxiv.org/abs/2403.07767v2
- Date: Fri, 18 Oct 2024 20:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:10:49.948265
- Title: Beyond the Labels: Unveiling Text-Dependency in Paralinguistic Speech Recognition Datasets
- Title(参考訳): ラベルを超えて:パラ言語的音声認識データセットにおけるテキスト依存の展開
- Authors: Jan Pešán, Santosh Kesiraju, Lukáš Burget, Jan ''Honza'' Černocký,
- Abstract要約: 本稿では、機械学習モデルが真にパラ言語的特徴を特定することを学んでいるという前提を批判的に評価する。
これらのデータセットの語彙的重複を調べ、機械学習モデルの性能をテストすることにより、特性ラベル付けにおける重要なテキスト依存性を明らかにする。
- 参考スコア(独自算出の注目度): 0.5999777817331317
- License:
- Abstract: Paralinguistic traits like cognitive load and emotion are increasingly recognized as pivotal areas in speech recognition research, often examined through specialized datasets like CLSE and IEMOCAP. However, the integrity of these datasets is seldom scrutinized for text-dependency. This paper critically evaluates the prevalent assumption that machine learning models trained on such datasets genuinely learn to identify paralinguistic traits, rather than merely capturing lexical features. By examining the lexical overlap in these datasets and testing the performance of machine learning models, we expose significant text-dependency in trait-labeling. Our results suggest that some machine learning models, especially large pre-trained models like HuBERT, might inadvertently focus on lexical characteristics rather than the intended paralinguistic features. The study serves as a call to action for the research community to reevaluate the reliability of existing datasets and methodologies, ensuring that machine learning models genuinely learn what they are designed to recognize.
- Abstract(参考訳): 認知的負荷や感情のようなパラ言語的特徴は、音声認識研究において重要な領域として認識され、CLSEやIEMOCAPのような特殊なデータセットを通してしばしば調査される。
しかし、これらのデータセットの完全性は、テキスト依存のために精査されることはめったにない。
本稿では、このようなデータセットで訓練された機械学習モデルが、単に語彙的特徴を捉えるのではなく、真にパラ言語的特徴を特定することを学習する、という一般的な仮定を批判的に評価する。
これらのデータセットの語彙的重複を調べ、機械学習モデルの性能をテストすることにより、特性ラベル付けにおける重要なテキスト依存性を明らかにする。
この結果から,いくつかの機械学習モデル,特にHuBERTのような大規模事前学習モデルが,意図したパラ言語的特徴よりも必然的に語彙的特徴に焦点を絞っている可能性が示唆された。
この研究は、研究コミュニティが既存のデータセットや方法論の信頼性を再評価し、機械学習モデルが認識するために設計されたものを真に学習することを保証するための活動である。
関連論文リスト
- Capturing Pertinent Symbolic Features for Enhanced Content-Based
Misinformation Detection [0.0]
誤解を招く内容の検出は、言語的・ドメイン的多様性の極端さから、大きなハードルとなる。
本稿では,この現象を特徴付ける言語特性と,最も一般的な誤情報データセットの表現方法について分析する。
ニューラルネットワークモデルと組み合わせた関連する記号的知識の適切な利用は、誤解を招くコンテンツを検出するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-01-29T16:42:34Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Data AUDIT: Identifying Attribute Utility- and Detectability-Induced
Bias in Task Models [8.420252576694583]
医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。
提案手法は,データセット属性に関連するリスクを,検出性と実用性の観点から分解する。
本手法を用いて, ほぼ知覚不能なバイアス誘発アーティファクトを確実に同定するスクリーニング手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T16:50:15Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Predicting the Reproducibility of Social and Behavioral Science Papers
Using Supervised Learning Models [21.69933721765681]
本論文では,学術研究から5種類の特徴を抽出し,公開研究クレームの評価を支援するフレームワークを提案する。
個々の特徴と人間評価の基底真理ラベルのセットを予測するための重要性のペアワイズ相関を分析します。
論文 参考訳(メタデータ) (2021-04-08T00:45:20Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Feature Learning for Accelerometer based Gait Recognition [0.0]
オートエンコーダは、特徴学習能力に関して、差別的なエンドツーエンドモデルに非常に近い。
完全な畳み込みモデルは 訓練戦略に関係なく 優れた特徴表現を学べます
論文 参考訳(メタデータ) (2020-07-31T10:58:01Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。