論文の概要: Fairness and underspecification in acoustic scene classification: The
case for disaggregated evaluations
- arxiv url: http://arxiv.org/abs/2110.01506v1
- Date: Mon, 4 Oct 2021 15:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 19:27:56.614265
- Title: Fairness and underspecification in acoustic scene classification: The
case for disaggregated evaluations
- Title(参考訳): 音響シーン分類におけるフェアネスとアンダー種別:分散評価の場合
- Authors: Andreas Triantafyllopoulos, Manuel Milling, Konstantinos Drossos,
Bj\"orn W. Schuller
- Abstract要約: 機械学習(ML)アプリケーションにおける不明瞭さと公平さは、最近、MLコミュニティで2つの顕著な問題となっている。
本研究では,アコースティックシーン分類(ASC)モデルに対して,非凝集評価によるより包括的な評価プロセスの必要性を論じる。
本研究では,2つの広く使用されているASCデータセットを用いたトレーニングにおいて,不特定性や公平性の問題を明らかにする上で,提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 6.186191586944725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Underspecification and fairness in machine learning (ML) applications have
recently become two prominent issues in the ML community. Acoustic scene
classification (ASC) applications have so far remained unaffected by this
discussion, but are now becoming increasingly used in real-world systems where
fairness and reliability are critical aspects. In this work, we argue for the
need of a more holistic evaluation process for ASC models through disaggregated
evaluations. This entails taking into account performance differences across
several factors, such as city, location, and recording device. Although these
factors play a well-understood role in the performance of ASC models, most
works report single evaluation metrics taking into account all different strata
of a particular dataset. We argue that metrics computed on specific
sub-populations of the underlying data contain valuable information about the
expected real-world behaviour of proposed systems, and their reporting could
improve the transparency and trustability of such systems. We demonstrate the
effectiveness of the proposed evaluation process in uncovering
underspecification and fairness problems exhibited by several standard ML
architectures when trained on two widely-used ASC datasets. Our evaluation
shows that all examined architectures exhibit large biases across all factors
taken into consideration, and in particular with respect to the recording
location. Additionally, different architectures exhibit different biases even
though they are trained with the same experimental configurations.
- Abstract(参考訳): 機械学習(ML)アプリケーションにおける不明瞭さと公平さは、最近、MLコミュニティで2つの顕著な問題となっている。
音響シーン分類(ASC)の応用はいまだにこの議論の影響を受けていないが、現在、公正性と信頼性が重要視される現実のシステムでの利用が増えている。
本研究では,ASCモデルに対する非凝集評価によるより包括的な評価プロセスの必要性を論じる。
これは、都市、位置、記録装置など、いくつかの要因におけるパフォーマンスの差を考慮している。
これらの要因は、ASCモデルの性能においてよく理解されている役割を担っているが、ほとんどの研究は、特定のデータセットのすべての異なる層を考慮した単一の評価指標を報告している。
提案手法では,特定のサブ集団で計算されたメトリクスは,提案するシステムの実世界の振る舞いに関する貴重な情報を含んでおり,その報告によってシステムの透明性と信頼性が向上する可能性がある。
そこで本研究では,2つのascデータセット上でのトレーニングにおいて,複数の標準mlアーキテクチャが提示する下位分類と公平性問題の解明において,提案手法の有効性を実証する。
評価の結果, 調査対象のアーキテクチャは, 特に記録位置に関して, 考慮すべきすべての要因に大きく偏りがあることが判明した。
さらに、異なるアーキテクチャは、同じ実験的な構成でトレーニングされているにもかかわらず、異なるバイアスを示す。
関連論文リスト
- RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - FairLENS: Assessing Fairness in Law Enforcement Speech Recognition [37.75768315119143]
本研究では,異なるモデル間の公平さの相違を検証するための,新しい適応性評価手法を提案する。
我々は1つのオープンソースと11の商用 ASR モデルに対してフェアネスアセスメントを行った。
論文 参考訳(メタデータ) (2024-05-21T19:23:40Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - On Generalisability of Machine Learning-based Network Intrusion
Detection Systems [0.0]
本稿では,4つのベンチマークNIDSデータセットを用いて,教師付き学習モデルと教師なし学習モデルの評価を行う。
我々の調査は、検討されたモデルのうちどのモデルもすべての研究されたデータセットを一般化できないことを示唆している。
また,本研究では,教師なし学習手法が,検討シナリオにおける教師付き学習モデルよりも一般化されていることも示唆した。
論文 参考訳(メタデータ) (2022-05-09T08:26:48Z) - What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文 参考訳(メタデータ) (2022-02-08T11:44:20Z) - Towards Ubiquitous Indoor Positioning: Comparing Systems across
Heterogeneous Datasets [1.3814679165245243]
IPS(Indoor Positioning Systems)の評価は、主に研究者やパートナーの施設におけるローカルな配置に依存している。
データセットの夜明けは、IPS評価を機械学習モデルと同じレベルに押し上げている。
本稿では,複数のシナリオにおけるIPSの評価手法を提案する。
論文 参考訳(メタデータ) (2021-09-20T11:37:36Z) - Through the Data Management Lens: Experimental Analysis and Evaluation
of Fair Classification [75.49600684537117]
データ管理研究は、データとアルゴリズムの公平性に関連するトピックに対する存在感と関心が高まっている。
我々は,その正しさ,公平性,効率性,スケーラビリティ,安定性よりも,13の公正な分類アプローチと追加の変種を幅広く分析している。
我々の分析は、異なるメトリクスとハイレベルなアプローチ特性がパフォーマンスの異なる側面に与える影響に関する新しい洞察を強調します。
論文 参考訳(メタデータ) (2021-01-18T22:55:40Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。