論文の概要: On the Robustness of Decision-Focused Learning
- arxiv url: http://arxiv.org/abs/2311.16487v3
- Date: Thu, 28 Dec 2023 15:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:47:44.164534
- Title: On the Robustness of Decision-Focused Learning
- Title(参考訳): 意思決定型学習のロバスト性について
- Authors: Yehya Farhat
- Abstract要約: 決定焦点学習(Decision-Focused Learning, DFL)は、機械学習(ML)モデルを訓練し、不完全な最適化問題の欠落パラメータを予測するための新興学習パラダイムである。
DFLは、予測と最適化タスクを統合することで、エンドツーエンドシステムでMLモデルをトレーニングし、トレーニングとテストの目的の整合性を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-Focused Learning (DFL) is an emerging learning paradigm that tackles
the task of training a machine learning (ML) model to predict missing
parameters of an incomplete optimization problem, where the missing parameters
are predicted. DFL trains an ML model in an end-to-end system, by integrating
the prediction and optimization tasks, providing better alignment of the
training and testing objectives. DFL has shown a lot of promise and holds the
capacity to revolutionize decision-making in many real-world applications.
However, very little is known about the performance of these models under
adversarial attacks. We adopt ten unique DFL methods and benchmark their
performance under two distinctly focused attacks adapted towards the
Predict-then-Optimize problem setting. Our study proposes the hypothesis that
the robustness of a model is highly correlated with its ability to find
predictions that lead to optimal decisions without deviating from the
ground-truth label. Furthermore, we provide insight into how to target the
models that violate this condition and show how these models respond
differently depending on the achieved optimality at the end of their training
cycles.
- Abstract(参考訳): 決定焦点学習(Decision-Focused Learning, DFL)は、機械学習(ML)モデルを訓練し、不完全な最適化問題の欠落パラメータを予測するための新興学習パラダイムである。
DFLは、予測と最適化タスクを統合することで、エンドツーエンドシステムでMLモデルをトレーニングし、トレーニングとテストの目的の整合性を向上させる。
DFLは多くの約束を示し、多くの現実世界のアプリケーションで意思決定に革命をもたらす能力を持っている。
しかし、これらのモデルの敵攻撃時の性能についてはほとんど分かっていない。
我々は,10種類のDFL手法を採用し,その性能を予測列最適化問題に適応した2つの明確な攻撃条件下でベンチマークする。
本研究は,モデルのロバスト性が,接地ラベルから逸脱することなく最適な決定につながる予測を見つける能力と高い相関関係にあるという仮説を提案する。
さらに、この条件に違反するモデルをターゲットにする方法を考察し、トレーニングサイクルの最後に達成された最適性に応じてこれらのモデルがどのように反応するかを示す。
関連論文リスト
- Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Anatomy of Machines for Markowitz: Decision-Focused Learning for Mean-Variance Portfolio Optimization [27.791742749950203]
意思決定学習は、予測と最適化を統合して意思決定結果を改善する。
MSEは全ての資産のエラーを等しく扱うが、DFLはどのように異なる資産のエラーを減らせるのか?
本研究は,MVOにおける意思決定を最適化するために,DFLがストックリターン予測モデルをどのように調整するかを検討することを目的とする。
論文 参考訳(メタデータ) (2024-09-15T10:37:11Z) - Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Decision-Focused Learning: Foundations, State of the Art, Benchmark and Future Opportunities [46.100825429034266]
決定中心学習(DFL)は、機械学習(ML)と制約付き最適化を統合し、意思決定品質を向上させる新興パラダイムである。
本稿では,MLと制約付き最適化を組み合わせた勾配法と勾配法の両方を詳細に解析する。
論文 参考訳(メタデータ) (2023-07-25T15:17:31Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。