論文の概要: Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling
- arxiv url: http://arxiv.org/abs/2409.16937v2
- Date: Fri, 27 Sep 2024 11:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:10:14.607812
- Title: Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling
- Title(参考訳): 多視点擬似ラベル音声からの半教師付き認知状態分類
- Authors: Yuanchao Li, Zixing Zhang, Jing Han, Peter Bell, Catherine Lai,
- Abstract要約: ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 21.82879779173242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of labeled data is a common challenge in speech classification tasks, particularly those requiring extensive subjective assessment, such as cognitive state classification. In this work, we propose a Semi-Supervised Learning (SSL) framework, introducing a novel multi-view pseudo-labeling method that leverages both acoustic and linguistic characteristics to select the most confident data for training the classification model. Acoustically, unlabeled data are compared to labeled data using the Frechet audio distance, calculated from embeddings generated by multiple audio encoders. Linguistically, large language models are prompted to revise automatic speech recognition transcriptions and predict labels based on our proposed task-specific knowledge. High-confidence data are identified when pseudo-labels from both sources align, while mismatches are treated as low-confidence data. A bimodal classifier is then trained to iteratively label the low-confidence data until a predefined criterion is met. We evaluate our SSL framework on emotion recognition and dementia detection tasks. Experimental results demonstrate that our method achieves competitive performance compared to fully supervised learning using only 30% of the labeled data and significantly outperforms two selected baselines.
- Abstract(参考訳): ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類のような広範囲な主観的評価を必要とするタスクにおいて共通の課題である。
本研究では,音響特性と言語特性を両立させる多視点擬似ラベル手法を導入し,分類モデルの学習に最も自信のあるデータを選択することを目的とした,半教師付き学習(SSL)フレームワークを提案する。
複数のオーディオエンコーダが生成した埋め込みから算出したFrechetオーディオ距離を用いてラベル付きデータをラベル付きデータと比較する。
言語学的には,提案したタスク固有知識に基づいて音声認識の書き起こしやラベルの予測を行うために,大規模言語モデルが促される。
両情報源からの擬似ラベルが一致したときには、高信頼データを識別し、ミスマッチを低信頼データとして扱う。
バイモーダル分類器は、予め定義された基準を満たすまで、低信頼データを反復的にラベル付けするように訓練される。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
実験の結果,ラベル付きデータの30%しか使用していない完全教師付き学習と比較して競争性能が向上し,選択した2つのベースラインを著しく上回ることがわかった。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - LanSER: Language-Model Supported Speech Emotion Recognition [25.597250907836152]
本稿では,学習済みの大規模言語モデルを用いて弱い感情ラベルを推定することにより,ラベルなしデータの利用を可能にするLanSERを提案する。
分類学に制約された弱いラベルを推定するために、自動音声認識により抽出された音声の書き起こしに対して、最も深いスコアを持つ感情ラベルを選択するテキスト・エンタテインメント・アプローチを用いる。
実験結果から, 従来のSERデータセットのベースラインモデルでは, 精度が向上し, ラベル効率が向上した。
論文 参考訳(メタデータ) (2023-09-07T19:21:08Z) - Channel-Wise Contrastive Learning for Learning with Noisy Labels [60.46434734808148]
チャネルワイド・コントラッシブ・ラーニング(CWCL)を導入し,真正なラベル情報とノイズを区別する。
従来のインスタンス単位のコントラスト学習(IWCL)とは異なり、CWCLはよりニュアンスでレジリエントな特徴を真のラベルと一致させる傾向にある。
まずCWCLを用いて、クリーンにラベル付けされたサンプルを識別し、次に、これらのサンプルを段階的に微調整する。
論文 参考訳(メタデータ) (2023-08-14T06:04:50Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Graph-based Label Propagation for Semi-Supervised Speaker Identification [10.87690067963342]
家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。
提案手法は,2つの最先端スコアリング手法と比較して,ラベル付きデータの有効利用と話者識別精度の向上を図っている。
論文 参考訳(メタデータ) (2021-06-15T15:10:33Z) - Conditional independence for pretext task selection in Self-supervised
speech representation learning [23.39079406674442]
自己教師付き学習(ssl)はラベルのないデータを利用して、下流タスクの従来の入力機能を置き換える有用な潜在表現を抽出する。
一般的なプリテキストタスクは、元の信号から派生した擬似ラベル上でSSLモデルを事前訓練することである。
本稿では,与えられた下流タスクに関連のある擬似ラベルを選択するための実用的かつ理論的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T11:32:59Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。