論文の概要: Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition
- arxiv url: http://arxiv.org/abs/2508.03780v1
- Date: Tue, 05 Aug 2025 13:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.393146
- Title: Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition
- Title(参考訳): 忠実に解釈可能なモデルはよりロバストか? : 音楽感情認識における研究
- Authors: Katharina Hoedt, Arthur Flexer, Gerhard Widmer,
- Abstract要約: ブラックボックスのモデルと比較して、本質的に解釈可能なディープモデルがデータ内の無関係な摂動に対して堅牢であるかどうかを検討する。
我々の結果は、本質的に解釈可能なモデルの方がブラックボックスモデルよりも頑丈であることを示し、敵対的に訓練されたモデルと同じような堅牢性を達成することを示唆している。
- 参考スコア(独自算出の注目度): 3.5775697416994485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the desired key properties of deep learning models is the ability to generalise to unseen samples. When provided with new samples that are (perceptually) similar to one or more training samples, deep learning models are expected to produce correspondingly similar outputs. Models that succeed in predicting similar outputs for similar inputs are often called robust. Deep learning models, on the other hand, have been shown to be highly vulnerable to minor (adversarial) perturbations of the input, which manage to drastically change a model's output and simultaneously expose its reliance on spurious correlations. In this work, we investigate whether inherently interpretable deep models, i.e., deep models that were designed to focus more on meaningful and interpretable features, are more robust to irrelevant perturbations in the data, compared to their black-box counterparts. We test our hypothesis by comparing the robustness of an interpretable and a black-box music emotion recognition (MER) model when challenged with adversarial examples. Furthermore, we include an adversarially trained model, which is optimised to be more robust, in the comparison. Our results indicate that inherently more interpretable models can indeed be more robust than their black-box counterparts, and achieve similar levels of robustness as adversarially trained models, at lower computational cost.
- Abstract(参考訳): ディープラーニングモデルの望ましい重要な特性の1つは、目に見えないサンプルに一般化する能力である。
1つ以上のトレーニングサンプルと(知覚的に)類似した新しいサンプルが提供されると、ディープラーニングモデルは、対応する類似の出力を生成することが期待される。
類似した入力に対して同様の出力を予測することに成功しているモデルは、しばしばロバストと呼ばれる。
一方、ディープラーニングモデルでは、入力の小さな(逆)摂動に対して非常に脆弱であることが示されており、モデルの出力を劇的に変化させ、同時にスプリアス相関に依存する。
本研究は, 本質的に解釈可能なディープモデル, すなわち, 意味的かつ解釈可能な特徴に焦点を合わせるように設計されたディープモデルが, ブラックボックスモデルと比較して, データの無関係な摂動に対してより堅牢であるか否かを検討するものである。
我々は,解釈可能な音楽感情認識(MER)モデルとブラックボックス音楽感情認識(MER)モデルの頑健性を比較することで,その仮説を検証した。
さらに、比較においてより堅牢であるように最適化された、逆向きに訓練されたモデルも含んでいる。
以上の結果から,本質的に解釈可能なモデルの方がブラックボックスモデルよりも頑健であり,計算コストの低減を図り,対向的に訓練されたモデルと同様の堅牢性を達成できることが示唆された。
関連論文リスト
- Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - A Robust Adversarial Ensemble with Causal (Feature Interaction) Interpretations for Image Classification [9.945272787814941]
本稿では,識別的特徴と生成的モデルを組み合わせた深層アンサンブルモデルを提案する。
提案手法は,特徴抽出のためのボトムレベル事前学習型識別ネットワークと,逆入力分布をモデル化したトップレベル生成型分類ネットワークを統合する。
論文 参考訳(メタデータ) (2024-12-28T05:06:20Z) - Scaling Trends in Language Model Robustness [7.725206196110384]
言語モデルのロバスト性は,いくつかの分類課題,モデルファミリー,敵対的攻撃にまたがって研究される。
明確な安全性トレーニングがなければ、より大きなモデルの方が一貫して堅牢ではないことが分かっています。
攻撃の規模は、研究対象の全モデルにまたがる敵の訓練をはるかに上回るが、より大きな敵の訓練を受けたモデルは、長期的には防衛上の優位性をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-25T17:26:41Z) - Exploring new ways: Enforcing representational dissimilarity to learn
new features and reduce error consistency [1.7497479054352052]
非常に異なる中間表現は相関の少ない出力予測と若干の誤差整合性をもたらすことを示す。
これにより、中間表現間の接続とその出力予測への影響について、第1の光を当てる。
論文 参考訳(メタデータ) (2023-07-05T14:28:46Z) - Robust Models are less Over-Confident [10.42820615166362]
敵の訓練(AT)は、このような攻撃に対して堅牢性を達成することを目的としている。
我々は、高い堅牢な精度を達成するために、様々な敵に訓練されたモデルを経験的に分析する。
ATには興味深い副作用がある。それは、彼らの決定に非常に自信の持たないモデルに繋がる。
論文 参考訳(メタデータ) (2022-10-12T06:14:55Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Understanding Robustness in Teacher-Student Setting: A New Perspective [42.746182547068265]
適応的な例は機械学習モデルで、有界な対向的摂動はモデルを誤解させ、任意に誤った予測をすることができる。
広範な研究は、逆例の存在を説明し、モデルのロバスト性を改善する方法を提供する。
我々の研究は、敵対的な事例に関する将来の探索を暗示し、原則化されたデータ拡張を通じてモデルロバスト性を高めることができる。
論文 参考訳(メタデータ) (2021-02-25T20:54:24Z) - Quantifying and Mitigating Privacy Risks of Contrastive Learning [4.909548818641602]
我々は、会員推定と属性推論のレンズを通して、コントラスト学習の最初のプライバシ分析を行う。
その結果,コントラストモデルではメンバシップ推論攻撃に弱いが,教師付きモデルに比べて属性推論攻撃に弱いことが示唆された。
この状況を改善するため,プライバシ保護型コントラスト学習機構であるTalosを提案する。
論文 参考訳(メタデータ) (2021-02-08T11:38:11Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。