論文の概要: High-Order Optimization of Gradient Boosted Decision Trees
- arxiv url: http://arxiv.org/abs/2211.11367v1
- Date: Mon, 21 Nov 2022 11:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:02:28.939464
- Title: High-Order Optimization of Gradient Boosted Decision Trees
- Title(参考訳): 勾配強化決定木の高次最適化
- Authors: Jean Pachebat, Sergei Ivanov
- Abstract要約: 数値最適化理論に基づくGBDTの高次最適化を提案する。
その結果,高次最適化はより高速で,実行時間を短縮できることがわかった。
- 参考スコア(独自算出の注目度): 1.4047579643483785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient Boosted Decision Trees (GBDTs) are dominant machine learning
algorithms for modeling discrete or tabular data. Unlike neural networks with
millions of trainable parameters, GBDTs optimize loss function in an additive
manner and have a single trainable parameter per leaf, which makes it easy to
apply high-order optimization of the loss function. In this paper, we introduce
high-order optimization for GBDTs based on numerical optimization theory which
allows us to construct trees based on high-order derivatives of a given loss
function. In the experiments, we show that high-order optimization has faster
per-iteration convergence that leads to reduced running time. Our solution can
be easily parallelized and run on GPUs with little overhead on the code.
Finally, we discuss future potential improvements such as automatic
differentiation of arbitrary loss function and combination of GBDTs with neural
networks.
- Abstract(参考訳): Gradient Boosted Decision Trees (GBDT) は、離散データや表形式のデータをモデリングするための機械学習アルゴリズムである。
数百万のトレーニング可能なパラメータを持つニューラルネットワークとは異なり、GBDTは損失関数を加算的に最適化し、葉ごとに単一のトレーニング可能なパラメータを持つ。
本稿では,与えられた損失関数の高階導関数に基づく木を構築できる数値最適化理論に基づいて,gbdtsの高階最適化を提案する。
実験では,高次最適化がイテレーション毎の収束を高速化し,実行時間を短縮できることを示す。
私たちのソリューションは簡単に並列化でき、コードのオーバーヘッドが少なくGPU上で実行できます。
最後に、任意の損失関数の自動微分やGBDTとニューラルネットワークの組み合わせなど、将来的な改善について論じる。
関連論文リスト
- Gradient-free neural topology optimization [0.0]
勾配のないアルゴリズムは勾配に基づくアルゴリズムと比較して多くの繰り返しを収束させる必要がある。
これにより、反復1回あたりの計算コストとこれらの問題の高次元性のため、トポロジ最適化では実現不可能となった。
我々は,潜時空間における設計を最適化する場合に,少なくとも1桁の繰り返し回数の減少につながる事前学習型ニューラルリパラメータ化戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:00:49Z) - SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - Alternating Differentiation for Optimization Layers [133.2668019610731]
そこで我々は,最適化問題を識別するAlternating Differentiation (Alt-Diff) という新しいフレームワークを開発した。
Alt-Diff はヤコビ行列の次元を特に大規模制約のある最適化のために著しく減少させることを示す。
また,Alt-Diffを切断して計算速度をさらに高速化することを提案する。
論文 参考訳(メタデータ) (2022-10-03T11:32:13Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Learned Optimizers for Analytic Continuation [0.0]
本稿では,凸最適化によるニューラルネットワーク手法を提案する。
トレーニングの後、学習したサロゲートは、低コストで高品質のソリューションを提供することができる。
提案手法は,大規模事前学習により,他の高次元逆問題にも容易に拡張することができる。
論文 参考訳(メタデータ) (2021-07-28T10:57:32Z) - Implicit differentiation for fast hyperparameter selection in non-smooth
convex learning [87.60600646105696]
内部最適化問題が凸であるが非滑らかである場合の一階法を研究する。
本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。
論文 参考訳(メタデータ) (2021-05-04T17:31:28Z) - Divide and Learn: A Divide and Conquer Approach for Predict+Optimize [50.03608569227359]
予測+最適化問題は、予測係数を使用する最適化プロブレムと、確率係数の機械学習を組み合わせる。
本稿では, 予測係数を1次線形関数として, 最適化問題の損失を直接表現する方法を示す。
本稿では,この制約を伴わずに最適化問題に対処し,最適化損失を用いてその係数を予測する新しい分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-04T00:26:56Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。