論文の概要: Era Splitting: Invariant Learning for Decision Trees
- arxiv url: http://arxiv.org/abs/2309.14496v5
- Date: Tue, 23 Jul 2024 15:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 23:33:02.446093
- Title: Era Splitting: Invariant Learning for Decision Trees
- Title(参考訳): Era Splitting: 決定木に対する不変学習
- Authors: Timothy DeLise,
- Abstract要約: 実生活における機械学習の問題は、ある時間から別の時間、あるいはある場所から別の場所へのデータの分散シフトを示す。
アウト・オブ・ディストリビューションの一般化の新たな分野は、新しい理論とアルゴリズムによってこの現実に対処する。
決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを決定木モデルに適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-life machine learning problems exhibit distributional shifts in the data from one time to another or from one place to another. This behavior is beyond the scope of the traditional empirical risk minimization paradigm, which assumes i.i.d. distribution of data over time and across locations. The emerging field of out-of-distribution (OOD) generalization addresses this reality with new theory and algorithms which incorporate "environmental", or "era-wise" information into the algorithms. So far, most research has been focused on linear models and/or neural networks . In this research we develop two new splitting criteria for decision trees, which allow us to apply ideas from OOD generalization research to decision tree models, namely, gradient boosting decision trees (GBDTs). The new splitting criteria use era-wise information associated with the data to grow tree-based models that are optimal across all disjoint eras in the data, instead of optimal over the entire data set pooled together, which is the default setting. In this paper, two new splitting criteria are defined and analyzed theoretically. Effectiveness is tested on four experiments, ranging from simple, synthetic to complex, real-world applications. In particular we cast the OOD domain-adaptation problem in the context of financial markets, where the new models out-perform state-of-the-art GBDT models on the Numerai data set. The new criteria are incorporated into the Scikit-Learn code base and made freely available online.
- Abstract(参考訳): 実生活における機械学習の問題は、ある時間から別の時間、あるいはある場所から別の場所へのデータの分散シフトを示す。
この行動は、従来の経験的リスク最小化パラダイムの範囲を超えており、これは時間と場所をまたいだデータの分散を前提としている。
アウト・オブ・ディストリビューション(OOD)の一般化は、この現実を「環境的」あるいは「時代的」な情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムで解決する。
これまでのところ、ほとんどの研究は線形モデルやニューラルネットワークに焦点を当てている。
本研究では,決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを決定木モデル,すなわち勾配促進決定木(GBDT)に適用する。
新しい分割基準では、データに関連付けられた時代的情報を使用して、データ内のすべての不整合時代において最適なツリーベースのモデルを成長させます。
本稿では,2つの新たな分割基準を定義し,理論的に分析する。
有効性は、単純な合成から複雑な実世界の応用まで、4つの実験で試験される。
特に、金融市場におけるOODドメイン適応問題では、新しいモデルがNumeraiデータセット上で、最先端のGBDTモデルより優れています。
新しい基準はScikit-Learnコードベースに組み込まれ、オンラインで無料で利用できる。
関連論文リスト
- Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
大規模言語モデル(LLM)と決定木推論(OCTree)に基づく新しいフレームワークを提案する。
私たちのキーとなるアイデアは、LLMの推論機能を活用して、手動で検索スペースを指定せずに優れた特徴生成ルールを見つけることです。
実験の結果、この単純なフレームワークは様々な予測モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Learning accurate and interpretable decision trees [27.203303726977616]
我々は、同じドメインから繰り返しデータにアクセスして決定木学習アルゴリズムを設計するためのアプローチを開発する。
本研究では,ベイズ決定木学習における事前パラメータのチューニングの複雑さについて検討し,その結果を決定木回帰に拡張する。
また、学習した決定木の解釈可能性について検討し、決定木を用いた説明可能性と精度のトレードオフを最適化するためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - Online Learning of Decision Trees with Thompson Sampling [12.403737756721467]
決定木は解釈可能な機械学習のための顕著な予測モデルである。
オンライン環境で最適な決定木を生成できるモンテカルロ木探索アルゴリズムを考案した。
論文 参考訳(メタデータ) (2024-04-09T15:53:02Z) - Invariant Random Forest: Tree-Based Model Solution for OOD
Generalization [13.259844672078552]
Invariant Decision Tree (IDT) と呼ばれる決定木モデルのOOD一般化のための新しい効果的な解を提案する。
IDTは、木の成長中に異なる環境にまたがる分裂の不安定で変動的な挙動に関して、ペナルティ項を強制する。
提案手法は, 温和な条件下での理論的結果によって動機付けられ, 合成データと実データの両方を用いて数値実験により検証される。
論文 参考訳(メタデータ) (2023-12-07T12:53:05Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。