論文の概要: Learning Optimal Classification Trees Robust to Distribution Shifts
- arxiv url: http://arxiv.org/abs/2310.17772v1
- Date: Thu, 26 Oct 2023 20:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:35:05.716028
- Title: Learning Optimal Classification Trees Robust to Distribution Shifts
- Title(参考訳): 分布シフトに頑健な最適分類木を学ぶ
- Authors: Nathan Justin, Sina Aghaei, Andr\'es G\'omez, Phebe Vayanos
- Abstract要約: トレーニングとテスト/デプロイデータ間の分散シフトに頑健な分類木を学習する際の問題点を考察する。
混合整数型ロバスト最適化技術に基づく最適ロバスト分類木を学習する手法を提案する。
- 参考スコア(独自算出の注目度): 3.244976698646146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning classification trees that are robust to
distribution shifts between training and testing/deployment data. This problem
arises frequently in high stakes settings such as public health and social work
where data is often collected using self-reported surveys which are highly
sensitive to e.g., the framing of the questions, the time when and place where
the survey is conducted, and the level of comfort the interviewee has in
sharing information with the interviewer. We propose a method for learning
optimal robust classification trees based on mixed-integer robust optimization
technology. In particular, we demonstrate that the problem of learning an
optimal robust tree can be cast as a single-stage mixed-integer robust
optimization problem with a highly nonlinear and discontinuous objective. We
reformulate this problem equivalently as a two-stage linear robust optimization
problem for which we devise a tailored solution procedure based on constraint
generation. We evaluate the performance of our approach on numerous publicly
available datasets, and compare the performance to a regularized, non-robust
optimal tree. We show an increase of up to 12.48% in worst-case accuracy and of
up to 4.85% in average-case accuracy across several datasets and distribution
shifts from using our robust solution in comparison to the non-robust one.
- Abstract(参考訳): トレーニングとテスト/デプロイデータ間の分散シフトに頑健な分類木を学習する問題を考える。
この問題は、例えば、質問のフレーミング、調査の時期と場所、インタビュアーと情報を共有する際のインタビュアーが持つ快適さのレベルなど、質問のフレーミングに敏感な自己報告調査によってデータが収集されることが多い、公衆衛生やソーシャルワークといった高利害率設定で頻繁に発生する。
混合整数型ロバスト最適化技術に基づく最適ロバスト分類木を学習する手法を提案する。
特に、最適ロバスト木を学習する問題は、高度に非線形で不連続な目的を持つ単段混合整数ロバスト最適化問題としてキャストできることを示した。
我々はこの問題を2段階線形ロバスト最適化問題として等価に再構成し、制約生成に基づく最適解法を考案する。
我々は,多数の公開データセットに対する我々のアプローチの性能を評価し,その性能を正規化された非ロバスト最適木と比較する。
最悪の場合には最大12.48%、いくつかのデータセットでは平均4.85%の増加を示し、ロバストではないソリューションに比べてロバストなソリューションを使うことから分散への移行を示している。
関連論文リスト
- Forecasting Outside the Box: Application-Driven Optimal Pointwise Forecasts for Stochastic Optimization [0.0]
本稿では,未知の状況の最適近似を導出する統合学習と最適化手法を提案する。
文献の在庫問題と実データを用いた自転車共有問題から得られた数値結果から,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-05T21:54:50Z) - Optimal and Efficient Binary Questioning for Human-in-the-Loop
Annotation [11.4375764457726]
本稿では,アノテートされたデータに予測器を付与するという,無視された相補的問題を考察する。
単純な二項分類設定では、最適一般解から実用的な方法まで幅広いスペクトルを提示する。
論文 参考訳(メタデータ) (2023-07-04T09:11:33Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Quant-BnB: A Scalable Branch-and-Bound Method for Optimal Decision Trees
with Continuous Features [5.663538370244174]
本稿では,分岐とバウンド(BnB)に基づく新たな離散最適化手法を提案する。
提案アルゴリズムのQuant-BnBは,様々な実データセット上での浅い最適木に対する既存手法と比較して,大幅な高速化を示す。
論文 参考訳(メタデータ) (2022-06-23T17:19:29Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Communication-Efficient Robust Federated Learning with Noisy Labels [144.31995882209932]
フェデレーテッド・ラーニング(FL)は、分散した位置データの上で、将来性のあるプライバシ保護機械学習パラダイムである。
FLにおける雑音ラベルの効果を緩和する学習に基づく再重み付け手法を提案する。
提案手法は,複数の実世界のデータセットにおいて,各種ベースラインと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-11T16:21:17Z) - Sample Selection for Fair and Robust Training [28.94276265328868]
公平でロバストなトレーニングのためのサンプル選択に基づくアルゴリズムを提案する。
提案アルゴリズムは,最先端技術に匹敵する公平性と堅牢性が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T07:17:29Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z) - Provable tradeoffs in adversarially robust classification [96.48180210364893]
我々は、ロバストなイソペリメトリに関する確率論の最近のブレークスルーを含む、新しいツールを開発し、活用する。
この結果から,データの不均衡時に増加する標準精度とロバスト精度の基本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2020-06-09T09:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。