論文の概要: Toward Corpus Size Requirements for Training and Evaluating Depression Risk Models Using Spoken Language
- arxiv url: http://arxiv.org/abs/2501.00617v1
- Date: Tue, 31 Dec 2024 19:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:41.382047
- Title: Toward Corpus Size Requirements for Training and Evaluating Depression Risk Models Using Spoken Language
- Title(参考訳): 音声言語を用いた抑うつリスクモデルの訓練・評価のためのコーパスサイズ要件に向けて
- Authors: Tomek Rutowski, Amir Harati, Elizabeth Shriberg, Yang Lu, Piotr Chlebek, Ricardo Oliveira,
- Abstract要約: 本研究は,テストセットおよび列車セットの変動が制御された研究における性能に与える影響について述べる。
その結果,1Kサンプル以下のテストサイズでは,より大きなトレーニングセットサイズであってもノイズのある結果が得られた。
安定した結果を得るためには、少なくとも2Kのトレーニングセットサイズが必要だった。
- 参考スコア(独自算出の注目度): 7.6109649792432315
- License:
- Abstract: Mental health risk prediction is a growing field in the speech community, but many studies are based on small corpora. This study illustrates how variations in test and train set sizes impact performance in a controlled study. Using a corpus of over 65K labeled data points, results from a fully crossed design of different train/test size combinations are provided. Two model types are included: one based on language and the other on speech acoustics. Both use methods current in this domain. An age-mismatched test set was also included. Results show that (1) test sizes below 1K samples gave noisy results, even for larger training set sizes; (2) training set sizes of at least 2K were needed for stable results; (3) NLP and acoustic models behaved similarly with train/test size variations, and (4) the mismatched test set showed the same patterns as the matched test set. Additional factors are discussed, including label priors, model strength and pre-training, unique speakers, and data lengths. While no single study can specify exact size requirements, results demonstrate the need for appropriately sized train and test sets for future studies of mental health risk prediction from speech and language.
- Abstract(参考訳): メンタルヘルスのリスク予測は、音声コミュニティにおいて成長する分野であるが、多くの研究は小さなコーパスに基づいている。
本研究は,テストセットおよび列車セットの変動が制御された研究における性能に与える影響について述べる。
65K以上のラベル付きデータポイントのコーパスを使用して、異なる列車/テストサイズの組み合わせの完全に交差した設計の結果が提供される。
1つは言語に基づくもので、もう1つは音声音響に基づくものである。
どちらも、このドメインにあるメソッドを使用します。
年齢制限テストセットも含んでいた。
その結果,(1)1K検体以下ではトレーニングセットのサイズが大きくてもノイズが生じること,(2)2K以上のトレーニングセットサイズが必要であること,(3)NLPおよび音響モデルが列車/試験サイズに類似して動作すること,(4)ミスマッチ試験セットは一致したテストセットと同じパターンを示した。
ラベルの先行、モデルの強さと事前学習、ユニークな話者、データの長さなど、その他の要因について論じる。
単一の研究で正確なサイズ要件を特定できないが、結果は、音声と言語によるメンタルヘルスリスク予測の将来の研究のために、適切な大きさの列車とテストセットの必要性を示す。
関連論文リスト
- Individual Text Corpora Predict Openness, Interests, Knowledge and Level of Education [0.5825410941577593]
個々の検索履歴から経験への開放性の個性次元を予測することができる。
個々のテキストコーパス(IC)は,平均500万ワードトークン数214人の参加者から生成される。
論文 参考訳(メタデータ) (2024-03-29T21:44:24Z) - PETA: Evaluating the Impact of Protein Transfer Learning with Sub-word
Tokenization on Downstream Applications [9.782175445247127]
PETAは3つのトークン化法の下で14の異なる語彙サイズを持つ言語モデルを訓練した。
モデル転送学習能力を評価するために、33のさまざまな下流データセット上で数千のテストを実行した。
実験の結果、50から200までの語彙サイズがモデルを最適化するのに対し、800を超えるサイズはモデルの表現性能に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2023-10-26T14:20:44Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Token-Level Fitting Issues of Seq2seq Models [15.81037035729968]
シーケンス・ツー・シーケンス(seq2seq)モデルは自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。
早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-05-08T06:40:24Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Predicting speech intelligibility from EEG using a dilated convolutional
network [17.56832530408592]
そこで本研究では,拡張畳み込みを取り入れた深層学習モデルを提案する。
本手法は, 被験者の脳波から発声閾値を予測する最初の方法であり, 音声明瞭度の客観的評価に寄与する。
論文 参考訳(メタデータ) (2021-05-14T14:12:52Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。