論文の概要: Beyond Random Sampling: Instance Quality-Based Data Partitioning via Item Response Theory
- arxiv url: http://arxiv.org/abs/2508.10628v1
- Date: Thu, 14 Aug 2025 13:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.326102
- Title: Beyond Random Sampling: Instance Quality-Based Data Partitioning via Item Response Theory
- Title(参考訳): ランダムサンプリングを超えて: 項目応答理論による品質ベースのデータ分割
- Authors: Lucas Cardoso, Vitor Santos, José Ribeiro Filho, Ricardo Prudêncio, Regiane Kawasaki, Ronnie Alves,
- Abstract要約: 本研究は,モデル検証段階におけるデータセットの分割を特徴付けるために,IRTパラメータを用いた手法を提案する。
IRTインフォームドパーティショニング戦略が機械学習モデルの性能に及ぼす影響を評価した。
- 参考スコア(独自算出の注目度): 0.4749981032986242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust validation of Machine Learning (ML) models is essential, but traditional data partitioning approaches often ignore the intrinsic quality of each instance. This study proposes the use of Item Response Theory (IRT) parameters to characterize and guide the partitioning of datasets in the model validation stage. The impact of IRT-informed partitioning strategies on the performance of several ML models in four tabular datasets was evaluated. The results obtained demonstrate that IRT reveals an inherent heterogeneity of the instances and highlights the existence of informative subgroups of instances within the same dataset. Based on IRT, balanced partitions were created that consistently help to better understand the tradeoff between bias and variance of the models. In addition, the guessing parameter proved to be a determining factor: training with high-guessing instances can significantly impair model performance and resulted in cases with accuracy below 50%, while other partitions reached more than 70% in the same dataset.
- Abstract(参考訳): 機械学習(ML)モデルのロバストな検証は不可欠だが、従来のデータパーティショニングアプローチでは、各インスタンスの固有の品質を無視することが多い。
本研究は,モデル検証段階におけるデータセットの分割を特徴付けるために,IRTパラメータを用いた手法を提案する。
IRTインフォームドパーティショニング戦略が4つの表付きデータセットにおける複数のMLモデルの性能に及ぼす影響を評価した。
その結果、IRTはインスタンス固有の不均一性を明らかにし、同じデータセット内のインスタンスの情報的サブグループの存在を強調した。
IRTに基づいて、モデルのバイアスと分散の間のトレードオフをよりよく理解するためのバランスのとれたパーティションが作成されました。
さらに、推測パラメータが決定的な要因であることが判明した: 高ゲスティングインスタンスを使用したトレーニングは、モデルパフォーマンスを著しく損なう可能性があり、その結果、50%未満の精度で、他のパーティションは同じデータセットで70%以上に達した。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Relation Extraction or Pattern Matching? Unravelling the Generalisation Limits of Language Models for Biographical RE [18.616344314400244]
関係抽出モデルは、類似した領域内であっても、目に見えないデータと競合することを示す。
我々の結果は、語彙的類似性ではなく、データ品質がロバスト転送の鍵であることを示しています。
論文 参考訳(メタデータ) (2025-05-18T20:22:14Z) - Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。
OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。
OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文 参考訳(メタデータ) (2024-03-26T16:40:08Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A Bayesian Framework on Asymmetric Mixture of Factor Analyser [0.0]
本稿では、スキュー正規(無制限)一般化双曲型(SUNGH)分布のリッチで柔軟なクラスを持つMFAモデルを提案する。
SUNGHファミリーは、様々な方向の歪みをモデル化する柔軟性と、重み付きデータを可能にする。
因子分析モデルを考慮すると、SUNGHファミリーは誤差成分と因子スコアの両方の歪みと重みを許容する。
論文 参考訳(メタデータ) (2022-11-01T20:19:52Z) - Studying Generalization Through Data Averaging [0.0]
本研究では,異なるデータセットのサンプルに対する差の平均から得られる一般化ギャップと,列車および試験性能について検討する。
我々はSGDノイズの関数として一般化ギャップとモデルトレインとテスト性能の相違についていくつかの側面を予測した。
論文 参考訳(メタデータ) (2022-06-28T00:03:40Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。