論文の概要: Era Splitting
- arxiv url: http://arxiv.org/abs/2309.14496v1
- Date: Mon, 25 Sep 2023 19:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 15:56:07.787538
- Title: Era Splitting
- Title(参考訳): 時代分裂
- Authors: Timothy DeLise
- Abstract要約: 決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを決定木モデルに適用する。
新しいスプリッティング基準では、各データポイントに関連付けられた年代情報を使用して、ツリーベースのモデルがデータ内のすべての不整合時代で最適なスプリットポイントを見つけることができる。
新しい基準は、Scikit-Learnコードベースの最先端の勾配向上決定木モデルに組み込まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real life machine learning problems exhibit distributional shifts in the data
from one time to another or from on place to another. This behavior is beyond
the scope of the traditional empirical risk minimization paradigm, which
assumes i.i.d. distribution of data over time and across locations. The
emerging field of out-of-distribution (OOD) generalization addresses this
reality with new theory and algorithms which incorporate environmental, or
era-wise information into the algorithms. So far, most research has been
focused on linear models and/or neural networks. In this research we develop
two new splitting criteria for decision trees, which allow us to apply ideas
from OOD generalization research to decision tree models, including random
forest and gradient-boosting decision trees. The new splitting criteria use
era-wise information associated with each data point to allow tree-based models
to find split points that are optimal across all disjoint eras in the data,
instead of optimal over the entire data set pooled together, which is the
default setting. We describe the new splitting criteria in detail and develop
unique experiments to showcase the benefits of these new criteria, which
improve metrics in our experiments out-of-sample. The new criteria are
incorporated into the a state-of-the-art gradient boosted decision tree model
in the Scikit-Learn code base, which is made freely available.
- Abstract(参考訳): 実生活機械学習の問題は、ある時間から別の時間、あるいはある場所から別の場所へのデータの分散シフトを示す。
この行動は従来の経験的リスク最小化パラダイムの範囲を超えており、これは時間的および場所的にデータの分散を前提としている。
アウト・オブ・ディストリビューション(OOD)の一般化は、環境情報や時代的な情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムによって、この現実に対処する。
これまで、ほとんどの研究は線形モデルやニューラルネットワークに焦点を当ててきた。
本研究では,決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを無作為な森林や勾配決定木などの決定木モデルに適用する。
新たな分割基準では、各データポイントに関連付けられたエラワイズ情報を使用して、ツリーベースのモデルで、データ内のすべての分離期間にわたって最適なスプリットポイントを見つけることができる。
新たな分割基準を詳述し、これらの新しい基準の利点を実証するユニークな実験を開発し、実験のアウトオブサンプルにおけるメトリクスを改善する。
新しい基準は、scikit-learnコードベースの最先端の勾配強化決定木モデルに組み込まれており、自由に利用できる。
関連論文リスト
- Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Learning accurate and interpretable decision trees [27.203303726977616]
我々は、同じドメインから繰り返しデータにアクセスして決定木学習アルゴリズムを設計するためのアプローチを開発する。
本研究では,ベイズ決定木学習における事前パラメータのチューニングの複雑さについて検討し,その結果を決定木回帰に拡張する。
また、学習した決定木の解釈可能性について検討し、決定木を用いた説明可能性と精度のトレードオフを最適化するためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - Online Learning of Decision Trees with Thompson Sampling [12.403737756721467]
決定木は解釈可能な機械学習のための顕著な予測モデルである。
オンライン環境で最適な決定木を生成できるモンテカルロ木探索アルゴリズムを考案した。
論文 参考訳(メタデータ) (2024-04-09T15:53:02Z) - Invariant Random Forest: Tree-Based Model Solution for OOD
Generalization [13.259844672078552]
Invariant Decision Tree (IDT) と呼ばれる決定木モデルのOOD一般化のための新しい効果的な解を提案する。
IDTは、木の成長中に異なる環境にまたがる分裂の不安定で変動的な挙動に関して、ペナルティ項を強制する。
提案手法は, 温和な条件下での理論的結果によって動機付けられ, 合成データと実データの両方を用いて数値実験により検証される。
論文 参考訳(メタデータ) (2023-12-07T12:53:05Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。