論文の概要: Investigating the Impact of Balancing, Filtering, and Complexity on Predictive Multiplicity: A Data-Centric Perspective
- arxiv url: http://arxiv.org/abs/2412.09712v1
- Date: Thu, 12 Dec 2024 20:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:04:05.904853
- Title: Investigating the Impact of Balancing, Filtering, and Complexity on Predictive Multiplicity: A Data-Centric Perspective
- Title(参考訳): バランス、フィルタリング、複雑度が予測的多重性に与える影響の検討:データ中心の視点から
- Authors: Mustafa Cavus, Przemyslaw Biecek,
- Abstract要約: ラショモン効果は、複数のモデルがデータセット上で同様のパフォーマンスを達成するが、異なる予測を生成し、予測的多重性をもたらす。
データ中心のAIアプローチは、データ最適化、特に前処理技術による優先順位付けによって、これらの問題を緩和することができる。
本稿では,データの複雑さを考慮し,バランスやフィルタリングといったデータ前処理手法が予測多重度やモデルの安定性にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 5.524804393257921
- License:
- Abstract: The Rashomon effect presents a significant challenge in model selection. It occurs when multiple models achieve similar performance on a dataset but produce different predictions, resulting in predictive multiplicity. This is especially problematic in high-stakes environments, where arbitrary model outcomes can have serious consequences. Traditional model selection methods prioritize accuracy and fail to address this issue. Factors such as class imbalance and irrelevant variables further complicate the situation, making it harder for models to provide trustworthy predictions. Data-centric AI approaches can mitigate these problems by prioritizing data optimization, particularly through preprocessing techniques. However, recent studies suggest preprocessing methods may inadvertently inflate predictive multiplicity. This paper investigates how data preprocessing techniques like balancing and filtering methods impact predictive multiplicity and model stability, considering the complexity of the data. We conduct the experiments on 21 real-world datasets, applying various balancing and filtering techniques, and assess the level of predictive multiplicity introduced by these methods by leveraging the Rashomon effect. Additionally, we examine how filtering techniques reduce redundancy and enhance model generalization. The findings provide insights into the relationship between balancing methods, data complexity, and predictive multiplicity, demonstrating how data-centric AI strategies can improve model performance.
- Abstract(参考訳): ラショモン効果はモデル選択において大きな挑戦となる。
複数のモデルがデータセット上で同様のパフォーマンスを達成するが、異なる予測を生成するため、予測多重性が生じる。
これは、任意のモデル結果が重大な結果をもたらすような、ハイテイクな環境において特に問題となる。
従来のモデル選択手法は精度を優先し、この問題に対処しない。
クラス不均衡や無関係変数などの要因は、さらに状況を複雑にし、モデルが信頼できる予測を提供するのを難しくする。
データ中心のAIアプローチは、データ最適化、特に前処理技術による優先順位付けによって、これらの問題を緩和することができる。
しかし、最近の研究では、事前処理手法は予測的多重度を必然的に減少させる可能性があることが示唆されている。
本稿では,データの複雑さを考慮し,バランスやフィルタリングといったデータ前処理手法が予測多重度やモデルの安定性にどのように影響するかを検討する。
実世界の21のデータセット上で実験を行い、様々なバランシングとフィルタリング手法を適用し、これらの手法がもたらす予測乗算のレベルをRashomon効果を利用して評価する。
さらに,フィルタリング手法が冗長性を低減し,モデル一般化を向上する方法について検討する。
この調査結果は、バランシングメソッド、データ複雑性、予測多元性の関係に関する洞察を提供し、データ中心のAI戦略がモデルパフォーマンスをどのように改善するかを示している。
関連論文リスト
- On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification [0.0]
本稿では,ラショモン効果を用いた予測多重度に及ぼすバランス法の影響について検討する。
データ中心のAIにおける盲点モデル選択は、ほぼ同じ精度のモデルのセットからリスクが高いため、非常に重要です。
論文 参考訳(メタデータ) (2024-03-22T13:08:22Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - The Effect of Balancing Methods on Model Behavior in Imbalanced
Classification Problems [4.370097023410272]
不均衡なデータは、マイノリティクラスからの学習不足によってモデルのパフォーマンスが影響を受けるため、分類において課題となる。
この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。
これらの変化を捉えるために、説明可能な人工知能ツールは、バランスをとる前後にデータセットでトレーニングされたモデルを比較するために使用される。
論文 参考訳(メタデータ) (2023-06-30T22:25:01Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Model Compression for Dynamic Forecast Combination [9.281199058905017]
動的予測アンサンブルを個々のモデルに圧縮すると、同様の予測性能が得られることを示す。
また,平均ランクが最も高い圧縮個々モデルは規則に基づく回帰モデルであることを示した。
論文 参考訳(メタデータ) (2021-04-05T09:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。