Fugu-MT 論文翻訳(概要): Robust Data-driven Prescriptiveness Optimization

論文の概要: Robust Data-driven Prescriptiveness Optimization

arxiv url: http://arxiv.org/abs/2306.05937v1
Date: Fri, 9 Jun 2023 14:56:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 13:01:36.236490
Title: Robust Data-driven Prescriptiveness Optimization
Title（参考訳）: ロバストなデータ駆動規範性最適化
Authors: Mehran Poursoltani, Erick Delage, Angelos Georghiou
Abstract要約: 本稿では、古典的経験的リスク目標最小化に代えて、規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。サンプル外データセットが様々な分散シフトを受ける場合の代替手法に対する結果のロバスト性を評価する。
参考スコア（独自算出の注目度）: 2.3204178451683264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The abundance of data has led to the emergence of a variety of optimization techniques that attempt to leverage available side information to provide more anticipative decisions. The wide range of methods and contexts of application have motivated the design of a universal unitless measure of performance known as the coefficient of prescriptiveness. This coefficient was designed to quantify both the quality of contextual decisions compared to a reference one and the prescriptive power of side information. To identify policies that maximize the former in a data-driven context, this paper introduces a distributionally robust contextual optimization model where the coefficient of prescriptiveness substitutes for the classical empirical risk minimization objective. We present a bisection algorithm to solve this model, which relies on solving a series of linear programs when the distributional ambiguity set has an appropriate nested form and polyhedral structure. Studying a contextual shortest path problem, we evaluate the robustness of the resulting policies against alternative methods when the out-of-sample dataset is subject to varying amounts of distribution shift.
Abstract（参考訳）: データの豊富さは、利用可能なサイド情報を利用してより予測的な意思決定をしようとする様々な最適化手法の出現につながった。応用の幅広い方法や文脈は、規範性の係数として知られる普遍的な単位のないパフォーマンス尺度の設計を動機付けている。この係数は、参照情報と比較して文脈決定の質と側面情報の規範的パワーの両方を定量化するように設計された。データ駆動型コンテキストにおいて前者を最大化するポリシーを特定するために,古典的経験的リスク最小化の目的に代えて規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。本稿では,分布的曖昧性集合が適切なネスト形式と多面体構造を持つ場合,一連の線形プログラムの解法に依拠する双断面アルゴリズムを提案する。文脈的最短経路問題について検討し、サンプル外データセットが分散シフトの変動を受ける場合の代替手法に対するポリシーのロバスト性を評価する。

関連論文リスト

Primal-dual algorithm for contextual stochastic combinatorial optimization [1.4999444543328293]
本稿では,不確実性のある意思決定に対処するために,運用研究と機械学習を統合する,文脈最適化の新しいアプローチを提案する。我々の目標は、不確実なパラメータやコンテキストに関する過去のデータから推定される経験的リスクを最小化することです。
論文参考訳（メタデータ） (2025-05-07T19:37:12Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Balancing Optimality and Diversity: Human-Centered Decision Making through Generative Curation [6.980546503227467]
本稿では,量的・質的両面を統合することにより,決定オプションの真の望ましさを最適化する生成キュレーションという新しい枠組みを導入する。提案手法は,多種多様な準最適動作を効率的にサンプリングするための分配$pi$を生成する生成ニューラルネットワークアーキテクチャと,反復的に解を生成する逐次最適化手法である。提案手法を広範囲なデータセットで検証し,複雑な環境にまたがる意思決定プロセスの強化の有効性を実証する。
論文参考訳（メタデータ） (2024-09-17T20:13:32Z)
Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [61.580419063416734]
最近の構造化学習手法のストリームは、様々な最適化問題に対する技術の実践的状態を改善している。鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。本稿では,最適化を容易にし,一般化誤差を改善するポリシを摂動することでリスクを円滑にする手法について検討する。
論文参考訳（メタデータ） (2024-07-24T12:00:30Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文参考訳（メタデータ） (2024-01-28T21:19:15Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Mixed-Integer Optimization with Constraint Learning [4.462264781248437]
我々は、学習制約を伴う混合整数最適化のための幅広い方法論基盤を確立する。我々は多くの機械学習手法の混合整数最適化・表現性を利用する。本手法は,World Food Programme計画と化学療法最適化の両方で実証する。
論文参考訳（メタデータ） (2021-11-04T20:19:55Z)
Integrated Conditional Estimation-Optimization [6.037383467521294]
確率のある不確実なパラメータを文脈的特徴情報を用いて推定できる実世界の多くの最適化問題である。不確実なパラメータの分布を推定する標準的な手法とは対照的に,統合された条件推定手法を提案する。当社のI CEOアプローチは、穏健な条件下で理論的に一貫性があることを示します。
論文参考訳（メタデータ） (2021-10-24T04:49:35Z)
Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文参考訳（メタデータ） (2020-07-21T08:18:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。