論文の概要: Performance is not enough: a story of the Rashomon's quartet
- arxiv url: http://arxiv.org/abs/2302.13356v1
- Date: Sun, 26 Feb 2023 17:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:35:50.046642
- Title: Performance is not enough: a story of the Rashomon's quartet
- Title(参考訳): 演奏不足:羅生門四重奏の物語
- Authors: Przemyslaw Biecek, Hubert Baniecki, Mateusz Krzyznski
- Abstract要約: 本稿では,異なるクラスの4つのモデルがほぼ同一の予測性能を持つ合成データセットを提案する。
この単純な図は、データサイエンティストが予測モデルをよりよく理解するために視覚化することを促すと信じています。
- 参考スコア(独自算出の注目度): 7.812073412066698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive modelling is often reduced to finding a single best model that
optimises a selected model quality criterion. But what if the second best model
describes the data equally well but in a completely different way? What about
the third best?
Following the Anscombe's quartet point, in this paper, we present a synthetic
dataset for which four models from different classes have practically identical
predictive performance. But, visualisation of these models reveals that they
describe this dataset in very different ways.
We believe that this simple illustration will encourage data scientists to
visualise predictive models in order to better understand them. Explanatory
analysis of the set of equally good models can provide valuable information and
we need to develop more techniques for this task.
- Abstract(参考訳): 予測モデルはしばしば、選択されたモデル品質基準を最適化する単一の最良のモデルを見つけるために還元される。
しかし、もし第2の最良のモデルがデータを均等に表現するが、全く異なる方法で説明するとしたらどうだろう?
第3のベストは?
本稿では,アンスコムのカルテット・ポイントに従って,異なるクラスの4つのモデルがほぼ同一の予測性能を持つ合成データセットを提案する。
しかし、これらのモデルの可視化は、このデータセットをまったく異なる方法で記述していることを明らかにする。
この単純な図は、データサイエンティストが予測モデルをよりよく理解するために視覚化することを促すと信じています。
等しく優れたモデルの集合の説明分析は貴重な情報を提供することができ、我々はこのタスクのためにより多くの技術を開発する必要がある。
関連論文リスト
- Compressed Models Decompress Race Biases: What Quantized Models Forget
for Fair Face Recognition [3.017721041662511]
本研究では,各民族サブグループにおける総合的パフォーマンスと人種的偏りについて検討する。
5つの異なるアーキテクチャと3つの異なるトレーニングデータセットをテストしました。
モデルは、異なる民族における顔認識モデルの性能を推定し比較するために収集された第4のデータセットで評価された。
論文 参考訳(メタデータ) (2023-08-23T00:17:50Z) - Knowledge is a Region in Weight Space for Fine-tuned Language Models [48.589822853418404]
異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
論文 参考訳(メタデータ) (2023-02-09T18:59:18Z) - Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。
パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文 参考訳(メタデータ) (2022-06-22T15:09:40Z) - Combining Diverse Feature Priors [90.74601233745047]
多様な機能事前セットでトレーニングされたモデルには、重複する障害モードが少なくなることを示す。
また、追加(ラベルなし)データでそのようなモデルを共同でトレーニングすることで、互いのミスを修正できることも示しています。
論文 参考訳(メタデータ) (2021-10-15T17:31:10Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - True to the Model or True to the Data? [9.462808515258464]
この選択は、モデルに真であることが望ましいか、データに真であることが望ましいかどうかに起因している、と私たちは主張する。
異なる価値関数の選択がそれぞれのシナリオでどのように機能するか、そして、モデル選択によってどのように属性が影響されるかを示す。
論文 参考訳(メタデータ) (2020-06-29T17:54:39Z) - Realistic Re-evaluation of Knowledge Graph Completion Methods: An
Experimental Study [0.0]
本論文は,埋め込みモデルの真の有効性を評価することを目的とした,最初の体系的研究である。
実験の結果、これらのモデルは以前よりもはるかに精度が低いことが分かりました。
論文 参考訳(メタデータ) (2020-03-18T01:18:09Z) - Pattern Similarity-based Machine Learning Methods for Mid-term Load
Forecasting: A Comparative Study [0.0]
パターン類似性に基づく年次電力需要予測手法について検討した。
モデルの不可欠な部分は、時系列シーケンスのパターンを用いた時系列表現である。
近接モデル,ファジィ近傍モデル,カーネル回帰モデル,一般回帰ニューラルネットワークの4つのモデルを考える。
論文 参考訳(メタデータ) (2020-03-03T12:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。