論文の概要: Contextual Linear Optimization with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2405.16564v1
- Date: Sun, 26 May 2024 13:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:29:27.968299
- Title: Contextual Linear Optimization with Bandit Feedback
- Title(参考訳): 帯域フィードバックを用いたコンテキスト線形最適化
- Authors: Yichun Hu, Nathan Kallus, Xiaojie Mao, Yanchen Wu,
- Abstract要約: 本稿では,帯域フィードバックを用いた文脈線形最適化(CLO)のアルゴリズムのクラスについて検討する。
IERMに対する高速な後悔境界を示し、不特定モデルクラスと最適化推定の柔軟な選択を可能にする。
当社の独立利害理論の副産物は、IERMの完全なフィードバックと不特定政策クラスによる高速な後悔である。
- 参考スコア(独自算出の注目度): 35.692428244561626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual linear optimization (CLO) uses predictive observations to reduce uncertainty in random cost coefficients and thereby improve average-cost performance. An example is a stochastic shortest path with random edge costs (e.g., traffic) and predictive features (e.g., lagged traffic, weather). Existing work on CLO assumes the data has fully observed cost coefficient vectors, but in many applications, we can only see the realized cost of a historical decision, that is, just one projection of the random cost coefficient vector, to which we refer as bandit feedback. We study a class of algorithms for CLO with bandit feedback, which we term induced empirical risk minimization (IERM), where we fit a predictive model to directly optimize the downstream performance of the policy it induces. We show a fast-rate regret bound for IERM that allows for misspecified model classes and flexible choices of the optimization estimate, and we develop computationally tractable surrogate losses. A byproduct of our theory of independent interest is fast-rate regret bound for IERM with full feedback and misspecified policy class. We compare the performance of different modeling choices numerically using a stochastic shortest path example and provide practical insights from the empirical results.
- Abstract(参考訳): 文脈線形最適化(CLO)は、予測観測を用いてランダムコスト係数の不確かさを低減し、平均コスト性能を向上させる。
例えば、ランダムなエッジコスト(トラフィックなど)と予測機能(トラフィック、天気など)を備えた確率的最短経路がある。
CLOに関する既存の研究は、データが完全に観測されたコスト係数ベクトルを前提としているが、多くのアプリケーションでは、歴史的決定の実際のコスト、すなわちランダムコスト係数ベクトルの1つの投影しか見つからない。
我々は,帯域幅フィードバックを用いたCLOのアルゴリズムのクラスについて検討し,このアルゴリズムは経験的リスク最小化(IERM)と呼ばれ,予測モデルに適合して,それが引き起こすポリシーの下流性能を直接最適化する。
提案手法では, モデルクラスが不特定であり, 最適化推定の柔軟な選択が可能なIERMの高速な後悔境界を示し, 計算的に抽出可能なサロゲート損失を発生させる。
当社の独立利害理論の副産物は、完全なフィードバックと不特定政策クラスを持つIERMにとっての高速な後悔である。
確率的最短経路の例を用いて、異なるモデリング選択の性能を数値的に比較し、経験的結果から実践的な洞察を与える。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Risk-Sensitive Diffusion for Perturbation-Robust Optimization [58.68233326265417]
スコア関数を持つものよりも、雑音のあるサンプルが別の目的関数を発生させることで、モデルが誤って最適化されることが示される。
リスクベクトルによってパラメータ化された微分方程式(SDE)の一種であるリスク感受性SDEを導入する。
ノイズのあるサンプルがガウス摂動によって引き起こされる場合のみ、ゼロ不安定測度が達成可能であることを証明する。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - A Huber loss-based super learner with applications to healthcare
expenditures [0.0]
本稿では,2乗誤差損失と絶対損失とを結合した「ロバスト」損失関数であるHuber損失に基づく超学習者を提案する。
提案手法は,ハマーリスクの最適化だけでなく,有限サンプル設定でも直接利用できることを示す。
論文 参考訳(メタデータ) (2022-05-13T19:57:50Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。