論文の概要: Trajectory-Based Difficulty Scoring for Reliable Learning on Tabular Data
- arxiv url: http://arxiv.org/abs/2605.24680v1
- Date: Sat, 23 May 2026 17:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.309892
- Title: Trajectory-Based Difficulty Scoring for Reliable Learning on Tabular Data
- Title(参考訳): 単語データに基づく信頼学習のためのトラジェクトリベース難易度スコアリング
- Authors: Tomer Lavi, Bracha Shapira, Nadav Rappoport,
- Abstract要約: Trajectory-based Difficulty Score (TDS) は、強化アンサンブルのためのインスタンスレベルの難易度推定器である。
本稿では,TDSが格付けの正確性や不確実性に高い相関性を示すことを示す。
- 参考スコア(独自算出の注目度): 7.5841677529906795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-boosted trees achieve strong performance on tabular data, yet often leave a long tail of poorly predicted instances. We introduce a Trajectory-based Difficulty Score (TDS), an instance-level difficulty estimator for boosted ensembles derived from per-tree cumulative prediction trajectories. For each instance, we compute interpretable trajectory descriptors (e.g., variance, oscillation peaks, sign switches, and tail stability) and train a lightweight regression model to predict held-out loss. An empirical CDF calibrates the resulting signal into a score in $[0,1]$ that supports ranking hard cases. Across diverse tabular benchmarks and ensemble sizes, TDS exhibits strong rank correlation with error and outperforms established instance-hardness and uncertainty baselines on classification, while remaining competitive on regression. We then show how a single difficulty signal improves multiple data mining workflows: difficulty-driven active learning for label-efficient training, difficulty-thresholded selective prediction for improved risk-coverage trade-offs, and TDS-stratified (Mondrian) conformal prediction for more uniform conditional coverage. Finally, clustering high-TDS instances using SHAP attributions reveals coherent failure modes characterized by compact feature-value ranges, supporting error analysis and targeted data acquisition.
- Abstract(参考訳): グラディエントブーストツリーは、表データ上で強力なパフォーマンスを達成するが、予測が下手なインスタンスの長い尾を残していることが多い。
本稿では,木ごとの累積予測軌跡から得られるアンサンブルのインスタンスレベルの難易度推定器であるトラジェクトリに基づくDifficulty Score(TDS)を紹介する。
各インスタンスに対して、解釈可能な軌道記述子(例えば、分散、振動ピーク、符号スイッチ、テール安定性)を計算し、軽量回帰モデルを訓練し、ホールドアウト損失を予測する。
経験的なCDFは、結果の信号をスコアに[0,1]$で校正し、ハードケースのランク付けをサポートする。
様々な表のベンチマークとアンサンブルサイズにまたがって、TDSは高いランク相関を示す。
次に、ラベル効率のトレーニングのための難易度駆動型能動学習、リスクカバレッジトレードオフの改善のための難易度保持された選択的予測、より均一な条件付きカバレッジのためのTDS(モンゴル語)整合性予測など、複数のデータマイニングワークフローをどのように改善するかを示す。
最後に、SHAP属性を用いた高TDSインスタンスのクラスタリングにより、コンパクトな特徴値範囲を特徴とするコヒーレントな障害モードを明らかにし、エラー解析とターゲットデータ取得をサポートする。
関連論文リスト
- Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - Weakly Supervised Contrastive Adversarial Training for Learning Robust Features from Semi-supervised Data [2.398961433119946]
既存の敵の訓練方法は、しばしば摂動に悩まされる。
Weakly Supervised Contrastive Adversarial Training (WSCAT)を提案する。
WSCATは、ロバストでない特徴とラベルの相関を乱すことにより、堅牢な特徴の学習を改善するための完全な摂動を保証する。
論文 参考訳(メタデータ) (2025-03-14T03:01:10Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [65.21599711087538]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - End-to-End Supervised Multilabel Contrastive Learning [38.26579519598804]
マルチラベル表現学習は、オブジェクトカテゴリ間のラベル依存やデータ関連の問題に関連付けられる難しい問題として認識されている。
近年の進歩は、モデルとデータ中心の視点からこれらの課題に対処している。
KMCLと呼ばれる新しいエンドツーエンドのトレーニングフレームワークを提案し、モデルとデータ中心の設計の欠点に対処する。
論文 参考訳(メタデータ) (2023-07-08T12:46:57Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。