論文の概要: A Toolkit for Detecting Spurious Correlations in Speech Datasets
- arxiv url: http://arxiv.org/abs/2604.26676v1
- Date: Wed, 29 Apr 2026 13:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.427208
- Title: A Toolkit for Detecting Spurious Correlations in Speech Datasets
- Title(参考訳): 音声データセットにおける純粋相関検出用ツールキット
- Authors: Lara Gauder, Pablo Riera, Andrea Slachevsky, Gonzalo Forno, Adolfo M. García, Luciana Ferrer,
- Abstract要約: 不均一な記録条件によって、純粋に相関が生じる可能性がある。
トレーニングデータとテストデータの両方に存在する場合、これらの相関関係はシステム性能を過大評価する。
本ツールキットは,音声中の非音声領域のみを用いて,対象クラスの検出に基づく診断手法を実装している。
- 参考スコア(独自算出の注目度): 6.206128767866976
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a toolkit for uncovering spurious correlations between recording characteristics and target class in speech datasets. Spurious correlations may arise due to heterogeneous recording conditions, a common scenario for health-related datasets. When present both in the training and test data, these correlations result in an overestimation of the system performance -- a dangerous situation, specially in high-stakes application where systems are required to satisfy minimum performance requirements. Our toolkit implements a diagnostic method based on the detection of the target class using only the non-speech regions in the audio. Better than chance performance at this task indicates that information about the target class can be extracted from the non-speech regions, flagging the presence of spurious correlations. The toolkit is publicly available for research use.
- Abstract(参考訳): 音声データセットにおける記録特性とターゲットクラスとの素早い相関関係を明らかにするためのツールキットを提案する。
健全な相関は、健康関連データセットの一般的なシナリオである異質な記録条件によって生じる可能性がある。
トレーニングデータとテストデータの両方に存在する場合、これらの相関関係はシステムパフォーマンスの過大評価をもたらす。
本ツールキットは,音声中の非音声領域のみを用いて,対象クラスの検出に基づく診断手法を実装している。
このタスクにおける確率性能よりは、ターゲットクラスに関する情報が非音声領域から抽出できることを示し、素早い相関の存在を警告する。
このツールキットは研究用に公開されている。
関連論文リスト
- Exploring the Frontiers of kNN Noisy Feature Detection and Recovery for Self-Driving Labs [0.49478969093606673]
本研究では,ノイズのある特徴を自動で検出し,修正可能なサンプル・フィーチャー・ペアリングを判定し,最終的に適切な特徴値を復元するワークフローを開発する。
次に, データセットのサイズ, 雑音強度, 特徴値分布が, ノイズの特徴の検出可能性および回復可能性に与える影響について, 系統的研究を行った。
論文 参考訳(メタデータ) (2025-07-15T03:35:56Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Spuriousness-Aware Meta-Learning for Learning Robust Classifiers [26.544938760265136]
Spurious correlations is brittle associations between certain attribute of inputs and target variables。
深部画像分類器はしばしばそれらを予測に利用し、相関が持たないデータの一般化が不十分になる。
スプリアス相関の影響を緩和することはロバストなモデル一般化に不可欠であるが、しばしばデータ内のスプリアス相関のアノテーションを必要とする。
論文 参考訳(メタデータ) (2024-06-15T21:41:25Z) - Surgical Phase and Instrument Recognition: How to identify appropriate
Dataset Splits [2.045596350476764]
この作業は、データセット分割のインタラクティブな探索を可能にする、公開データ可視化ツールを提供する。
位相、位相遷移、楽器、計器の組み合わせの発生を可視化することに焦点を当てている。
結果: 一般的なColec80データセット分割の解析を行い, いずれかの集合に表現されていない相転移と組み合わせを明らかにすることができた。
論文 参考訳(メタデータ) (2023-06-29T12:02:16Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Speech Detection For Child-Clinician Conversations In Danish For
Low-Resource In-The-Wild Conditions: A Case Study [6.4461798613033405]
デンマーク語における幼児・子どもの会話からなるデータセット上で,事前学習した音声モデルの性能について検討した。
その結果, 既定分類閾値のモデルでは, 患者集団の子どもに悪影響を及ぼすことが判明した。
本研究は,3分間のクリニック・チャイルド・会話が最適分類閾値を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2022-04-25T10:51:54Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。