論文の概要: Intra-tree Column Subsampling Hinders XGBoost Learning of Ratio-like Interactions
- arxiv url: http://arxiv.org/abs/2601.08121v1
- Date: Tue, 13 Jan 2026 01:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.00338
- Title: Intra-tree Column Subsampling Hinders XGBoost Learning of Ratio-like Interactions
- Title(参考訳): 木内カラムサブサンプリングによる比例的相互作用のXGBoost学習
- Authors: Mykola Pinchuk,
- Abstract要約: XGBoostにおける木内カラムサブサンプリングが,その合成を困難にしているかどうかを検討した。
どちらのプロセスでも、ツリー内カラムサブサンプリングはプリミティブのみの設定でPR-AUCのテストを減らす。
実際には、比のような構造が可塑性である場合、木内サブサンプリングを避けるか、意図した比の特徴を含むかのいずれかである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many applied problems contain signal that becomes clear only after combining multiple raw measurements. Ratios and rates are common examples. In gradient boosted trees, this combination is not an explicit operation: the model must synthesize it through coordinated splits on the component features. We study whether intra-tree column subsampling in XGBoost makes that synthesis harder. We use two synthetic data generating processes with cancellation-style structure. In both, two primitive features share a strong nuisance factor, while the target depends on a smaller differential factor. A log ratio cancels the nuisance and isolates the signal. We vary colsample_bylevel and colsample_bynode over s in {0.4, 0.6, 0.8, 0.9}, emphasizing mild subsampling (s >= 0.8). A control feature set includes the engineered ratio, removing the need for synthesis. Across both processes, intra-tree column subsampling reduces test PR-AUC in the primitives-only setting. In the main process the relative decrease reaches 54 percent when both parameters are set to 0.4. The effect largely disappears when the engineered ratio is present. A path-based co-usage metric drops in the same cells where performance deteriorates. Practically, if ratio-like structure is plausible, either avoid intra-tree subsampling or include the intended ratio features.
- Abstract(参考訳): 多くの応用された問題は、複数の生測値を組み合わせた後にのみ明らかになる信号を含んでいる。
比率とレートは一般的な例である。
勾配が増した木では、この組み合わせは明示的な操作ではない。
XGBoostにおける木内カラムサブサンプリングが,その合成を困難にしているかどうかを検討した。
キャンセル型構造を持つ2つの合成データ生成プロセスを使用する。
どちらの場合でも、2つの原始的特徴は強いニュアンス因子を共有し、ターゲットはより小さな微分因子に依存している。
ログ比はニュアンスをキャンセルし、信号を分離する。
我々は、0.4, 0.6, 0.8, 0.9} の s 上のColsample_bynode と colsample_bynode を変化させ、軽度のサブサンプリング(s >= 0.8)を強調する。
制御機能セットは、エンジニアリングされた比率を含み、合成の必要性を除去する。
どちらのプロセスでも、ツリー内カラムサブサンプリングはプリミティブのみの設定でPR-AUCのテストを減らす。
メインプロセスでは、両方のパラメータが0.4に設定された場合、相対減少率は54%に達する。
この効果は、工学的な比率が存在すると、ほとんど消える。
パスベースのコユージメトリックは、パフォーマンスが劣化する同じセルに落下する。
実際には、比のような構造が可塑性である場合、木内サブサンプリングを避けるか、意図した比の特徴を含むかのいずれかである。
関連論文リスト
- Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - STRIDE: Subset-Free Functional Decomposition for XAI in Tabular Settings [0.0]
私たちはSTRIDEを紹介します。これは"何"機能に答えるフレームワークですが、どのように"相互作用する"のかを明らかにすることができません。
また、学習した相互作用を分離し、その寄与を定量化する診断である「コンポーネント手術」も導入する。
論文 参考訳(メタデータ) (2025-09-11T00:19:53Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
セマンティックな一貫性を維持しつつ,サンプル単位のロジットアライメントを実現するコントラッシブな知識蒸留フレームワークを提案する。
提案手法は,教師と教師の対照的アライメントを通じて「暗黒知識」をサンプルレベルで伝達する。
CIFAR-100、ImageNet-1K、MS COCOデータセットを含む3つのベンチマークデータセットの総合的な実験を行う。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Estimating Higher-Order Mixed Memberships via the $\ell_{2,\infty}$
Tensor Perturbation Bound [8.521132000449766]
テンソルブロックモデルの一般化であるテンソル混合メンバーシップブロックモデルを提案する。
我々は,モデルの同定可能性を確立し,計算効率の良い推定手法を提案する。
本手法を実データおよびシミュレーションデータに適用し,個別のコミュニティメンバーシップを持つモデルから特定できない効果を示す。
論文 参考訳(メタデータ) (2022-12-16T18:32:20Z) - Active-LATHE: An Active Learning Algorithm for Boosting the Error
Exponent for Learning Homogeneous Ising Trees [75.93186954061943]
我々は、$rho$が少なくとも0.8$である場合に、エラー指数を少なくとも40%向上させるアルゴリズムを設計し、分析する。
我々の分析は、グラフの一部により多くのデータを割り当てるために、微小だが検出可能なサンプルの統計的変動を巧みに活用することに基づいている。
論文 参考訳(メタデータ) (2021-10-27T10:45:21Z) - Analyzing and Mitigating Interference in Neural Architecture Search [96.60805562853153]
本研究では、異なる子モデルをサンプリングし、共有演算子の勾配類似度を計算することで干渉問題を解明する。
これら2つの観測から着想を得て、干渉を緩和するための2つのアプローチを提案する。
検索したアーキテクチャは、RoBERTa$_rmbase$が1.1、0.6、ELECTRA$_rmbase$が1.6、テストセットであるGLUEベンチマークで1.1より優れています。
論文 参考訳(メタデータ) (2021-08-29T11:07:46Z) - Predict then Interpolate: A Simple Algorithm to Learn Stable Classifiers [59.06169363181417]
Predict then Interpolate (PI) は環境全体にわたって安定な相関関係を学習するためのアルゴリズムである。
正しい予測と間違った予測の分布を補間することにより、不安定な相関が消えるオラクル分布を明らかにすることができる。
論文 参考訳(メタデータ) (2021-05-26T15:37:48Z) - A better method to enforce monotonic constraints in regression and
classification trees [0.0]
回帰木と分類木にモノトン制約を強制する2つの新しい方法を提案する。
1つは現在のLightGBMよりも良い結果をもたらし、同様の計算時間を持つ。
もう1つはより優れた結果をもたらすが、現在のLightGBMよりもずっと遅い。
論文 参考訳(メタデータ) (2020-11-02T14:04:21Z) - The Tree Ensemble Layer: Differentiability meets Conditional Computation [8.40843862024745]
我々は、異なる決定木(ソフトツリー)のアンサンブルからなるニューラルネットワークのための新しいレイヤを導入する。
異なる木は文学において有望な結果を示すが、典型的には条件計算をサポートしないため、訓練と推論が遅い。
我々は、空間性を利用する特殊前方及び後方伝播アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-18T18:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。