論文の概要: First-Mover Bias in Gradient Boosting Explanations: Mechanism, Detection, and Resolution
- arxiv url: http://arxiv.org/abs/2603.22346v1
- Date: Sun, 22 Mar 2026 02:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.084601
- Title: First-Mover Bias in Gradient Boosting Explanations: Mechanism, Detection, and Resolution
- Title(参考訳): グラディエントブースティング説明における第1モーバーバイアス:メカニズム,検出,分解能
- Authors: Drake Caraker, Bryan Arnold, David Rhoads,
- Abstract要約: 第1モーバーバイアス(英: First-mover bias)は、勾配上昇における逐次的残留フィッティングに起因する特徴量の集中である。
モデル独立性は線形状態における最優先バイアスを解くのに十分であり、非線形データ生成プロセス下では最も効果的な緩和法であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We isolate and empirically characterize first-mover bias -- a path-dependent concentration of feature importance caused by sequential residual fitting in gradient boosting -- as a specific mechanistic cause of the well-known instability of SHAP-based feature rankings under multicollinearity. When correlated features compete for early splits, gradient boosting creates a self-reinforcing advantage for whichever feature is selected first: subsequent trees inherit modified residuals that favor the incumbent, concentrating SHAP importance on an arbitrary feature rather than distributing it across the correlated group. Scaling up a single model amplifies this effect -- a Large Single Model with the same total tree count as our method produces the worst explanations of any approach tested. We demonstrate that model independence is sufficient to resolve first-mover bias in the linear regime, and remains the most effective mitigation under nonlinear data-generating processes. Both our proposed method, DASH (Diversified Aggregation of SHAP), and simple seed-averaging (Stochastic Retrain) restore stability by breaking the sequential dependency chain, confirming that the operative mechanism is independence between explained models. At rho=0.9, both achieve stability=0.977, while the single-best workflow degrades to 0.958 and the Large Single Model to 0.938. On the Breast Cancer dataset, DASH improves stability from 0.32 to 0.93 (+0.61) against a tree-count-matched baseline. DASH additionally provides two diagnostic tools -- the Feature Stability Index (FSI) and Importance-Stability (IS) Plot -- that detect first-mover bias without ground truth, enabling practitioners to audit explanation reliability before acting on feature rankings. Software and reproducible benchmarks are available at https://github.com/DrakeCaraker/dash-shap.
- Abstract(参考訳): 本研究は, SHAPに基づく特徴量ランキングの定式化のメカニズムとして, 勾配増進における逐次的残留嵌合による特徴量の経路依存的濃度である1次モーバーバイアスを分離し, 実験的に特徴付ける。
相関した特徴が早期分裂に競合する場合、勾配の増大は、最初に選択された特徴に対して自己強化的な優位性を生み出す: 後続の木は、既存の特徴を優先する修正残基を継承し、関係するグループに分散するのではなく、任意の特徴にSHAPの重要性を集中させる。
私たちのメソッドと同じツリー数を持つ大きな単一モデルでは、テストされたアプローチの最悪の説明が得られます。
モデル独立性は線形状態における最優先バイアスを解くのに十分であり、非線形データ生成プロセス下では最も効果的な緩和であることを示す。
提案手法, DASH (Diversified Aggregation of SHAP) と, 逐次依存性連鎖を破り, 単純種分離 (Stochastic Retrain) の安定化を図り, 操作機構が説明モデル間の独立性であることを確認した。
rho=0.9では、どちらも安定性=0.977を達成し、シングルベストワークフローは0.958に、Large Single Modelは0.938に低下した。
乳がんデータセットでは、DASHは木数マッチングベースラインに対する安定性を0.32から0.93(+0.61)に改善する。
DASHはまた、2つの診断ツール – FSI(Feature Stability Index)とImportance-Stability(Importance-Stability) Plot – も提供している。
ソフトウェアと再現可能なベンチマークはhttps://github.com/DrakeCaraker/dash-shapで公開されている。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。
Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文 参考訳(メタデータ) (2026-02-12T18:58:12Z) - Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure [2.0017902634527194]
本稿では,真の消去と難読化を区別する表現対応アーキテクチャであるKnowledge Immunization Framework(KIF)を紹介する。
提案手法は,主観的表現の動的抑制とパラメータ効率の適応を組み合わせ,完全モデル再学習を伴わない耐久性のある未学習を実現する。
論文 参考訳(メタデータ) (2026-01-15T16:28:14Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - ResAD++: Towards Class Agnostic Anomaly Detection via Residual Feature Learning [52.11294707895649]
本稿では,クラス非依存型異常検出(AD)の問題点について検討する。
目的は、ターゲットデータの再トレーニングや微調整をせずに、異なるドメインから様々な新しいクラスの異常を一般化して検出できる、クラスに依存しないADモデルをトレーニングすることである。
8つの実世界のADデータセットに関する総合的な実験は、ResAD++が新しいクラスで直接使用されると、素晴らしいAD結果が得られることを示した。
論文 参考訳(メタデータ) (2025-09-28T08:41:05Z) - Controllable Feature Whitening for Hyperparameter-Free Bias Mitigation [26.926297904648393]
ディープニューラルネットワークは、データセットに存在する急激な相関を学習することができる。
目的とバイアスの特徴の線形相関を共分散行列により定量化し, ホワイトニングモジュールを通して除去する。
提案手法は,4つのベンチマークデータセットにおける既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-27T14:01:30Z) - Doubly robust inference via calibration [0.9694940903078658]
二重ロバストな手順におけるニュアンス推定器の校正は、線形汎函数に対して二重ロバストな正規性をもたらすことを示す。
我々の理論的解析は、DML推定器が、関数の回帰あるいはリース表現器が十分に適切に推定されている場合、キャリブレート正規のままであることを示している。
アイソトニック回帰によるクロスフィット推定をキャリブレーションするために,数行のコードを追加することで,既存のDMLパイプラインに統合することができる。
論文 参考訳(メタデータ) (2024-11-05T03:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。