論文の概要: Can We Trust Machine Learning? The Reliability of Features from Open-Source Speech Analysis Tools for Speech Modeling
- arxiv url: http://arxiv.org/abs/2506.11072v1
- Date: Mon, 02 Jun 2025 18:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.547411
- Title: Can We Trust Machine Learning? The Reliability of Features from Open-Source Speech Analysis Tools for Speech Modeling
- Title(参考訳): 機械学習を信頼できるか? オープンソースの音声分析ツールの機能の信頼性
- Authors: Tahiya Chowdhury, Veronica Romero,
- Abstract要約: 機械学習に基づく行動モデルは、オーディオ視覚記録から抽出された特徴に依存している。
機械学習ツールは、振る舞いに関連する情報をキャプチャする際の信頼性を保証するための検証を欠くことが多い。
自閉症児を対象に,広範に使用されている2つの音声分析ツールOpenSMILEとPratから抽出した音声特徴を評価し,その信頼性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning-based behavioral models rely on features extracted from audio-visual recordings. The recordings are processed using open-source tools to extract speech features for classification models. These tools often lack validation to ensure reliability in capturing behaviorally relevant information. This gap raises concerns about reproducibility and fairness across diverse populations and contexts. Speech processing tools, when used outside of their design context, can fail to capture behavioral variations equitably and can then contribute to bias. We evaluate speech features extracted from two widely used speech analysis tools, OpenSMILE and Praat, to assess their reliability when considering adolescents with autism. We observed considerable variation in features across tools, which influenced model performance across context and demographic groups. We encourage domain-relevant verification to enhance the reliability of machine learning models in clinical applications.
- Abstract(参考訳): 機械学習に基づく行動モデルは、オーディオ視覚記録から抽出された特徴に依存している。
記録はオープンソースツールを用いて処理され、分類モデルの音声特徴を抽出する。
これらのツールは、振る舞いに関連する情報をキャプチャする信頼性を保証するための検証を欠くことが多い。
このギャップは、様々な人口と状況における再現性と公正性に関する懸念を提起する。
音声処理ツールは、設計の文脈外で使用されると、振る舞いの変動を等しく捉えることができず、バイアスに寄与する。
自閉症児を対象に,広範に使用されている2つの音声分析ツールOpenSMILEとPratから抽出した音声特徴を評価し,その信頼性を評価する。
ツールにまたがる機能のかなりのバリエーションが観察され、コンテキストや人口統計グループ間でのモデルパフォーマンスに影響を与えました。
我々は、臨床応用における機械学習モデルの信頼性を高めるために、ドメイン関連検証を奨励する。
関連論文リスト
- Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Visual Exploration of Stopword Probabilities in Topic Models [1.9107347888374506]
停止語除去は多くの機械学習手法において重要な段階である。
不適切な選択または急いで省略された停止語は、最適以下の性能をもたらすだけでなく、モデルの品質にも大きな影響を及ぼす。
本稿では,停止語確率をコーパス固有確率で推定する新しい抽出法を提案する。
論文 参考訳(メタデータ) (2025-01-17T11:59:56Z) - Beyond the Labels: Unveiling Text-Dependency in Paralinguistic Speech Recognition Datasets [0.5999777817331317]
本稿では、機械学習モデルが真にパラ言語的特徴を特定することを学んでいるという前提を批判的に評価する。
これらのデータセットの語彙的重複を調べ、機械学習モデルの性能をテストすることにより、特性ラベル付けにおける重要なテキスト依存性を明らかにする。
論文 参考訳(メタデータ) (2024-03-12T15:54:32Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Democratize with Care: The need for fairness specific features in
user-interface based open source AutoML tools [0.0]
Automated Machine Learning (AutoML)は、機械学習モデル開発プロセスを効率化する。
この民主化により、多くのユーザー(非専門家を含む)が最先端の機械学習の専門知識にアクセスし利用できるようになる。
しかし、AutoMLツールはまた、これらのツールがデータを処理する方法、モデル選択、そして採用される最適化アプローチのバイアスを伝播する可能性がある。
論文 参考訳(メタデータ) (2023-12-16T19:54:00Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - An Interactive Visualization Tool for Understanding Active Learning [12.345164513513671]
本稿では,能動学習の学習過程を明らかにするための対話型可視化ツールを提案する。
このツールは、興味深いデータポイントのサンプルを選択し、異なるクエリ段階でそれらの予測値がどのように変化するかを確認し、アクティブな学習がいつどのように機能するかをよりよく理解することができる。
論文 参考訳(メタデータ) (2021-11-09T03:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。