論文の概要: Contextual Linear Optimization with Partial Feedback
- arxiv url: http://arxiv.org/abs/2405.16564v3
- Date: Mon, 10 Nov 2025 00:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.011519
- Title: Contextual Linear Optimization with Partial Feedback
- Title(参考訳): 部分フィードバックを用いた文脈線形最適化
- Authors: Yichun Hu, Nathan Kallus, Xiaojie Mao, Yanchen Wu,
- Abstract要約: 本研究では,異なるタイプのフィードバックを持つ文脈線形最適化(CLO)のためのオフライン学習アルゴリズムのクラスを提案する。
我々は,IERMに対して,不特定モデルクラスとフレキシブルな推定方法の選択を可能にする,新しい高速遅延境界を提供する。
- 参考スコア(独自算出の注目度): 35.38485630117593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual linear optimization (CLO) uses predictive contextual features to reduce uncertainty in random cost coefficients in the objective and thereby improve decision-making performance. A canonical example is the stochastic shortest path problem with random edge costs (e.g., travel time) and contextual features (e.g., lagged traffic, weather). While existing work on CLO assumes fully observed cost coefficient vectors, in many applications the decision maker observes only partial feedback corresponding to each chosen decision in the history. In this paper, we study both a bandit-feedback setting (e.g., only the overall travel time of each historical path is observed) and a semi-bandit-feedback setting (e.g., travel times of the individual segments on each chosen path are additionally observed). We propose a unified class of offline learning algorithms for CLO with different types of feedback, following a powerful induced empirical risk minimization (IERM) framework that integrates estimation and optimization. We provide a novel fast-rate regret bound for IERM that allows for misspecified model classes and flexible choices of estimation methods. To solve the partial-feedback IERM, we also tailor computationally tractable surrogate losses. A byproduct of our theory of independent interest is the fast-rate regret bound for IERM with full feedback and a misspecified policy class. We compare the performance of different methods numerically using stochastic shortest path examples on simulated and real data and provide practical insights from the empirical results.
- Abstract(参考訳): 文脈線形最適化(CLO)は、目的物におけるランダムコスト係数の不確かさを低減し、意思決定性能を向上させる。
標準的な例として、ランダムなエッジコスト(例:旅行時間)とコンテキストの特徴(例:交通量、天候)を持つ確率的最短経路問題がある。
CLOに関する既存の研究は、完全に観測されたコスト係数ベクトルを仮定するが、多くのアプリケーションでは、決定者は歴史において選択された各決定に対応する部分的なフィードバックのみを観察する。
本稿では,帯域フィードバック設定(例:履歴パス全体の移動時間のみ観測)と半帯域フィードバック設定(例:選択された経路上の個々のセグメントの移動時間)の両方について検討する。
評価と最適化を統合する強力な経験的リスク最小化(IERM)フレームワークに従って,異なるタイプのフィードバックを持つCLOのための一貫したオフライン学習アルゴリズムを提案する。
我々は,IERMに対して,不特定モデルクラスとフレキシブルな推定方法の選択を可能にする,新しい高速遅延境界を提供する。
部分フィードバックIERMの問題を解決するために,計算的に抽出可能なサロゲート損失の調整を行う。
当社の独立利害理論の副産物は、完全なフィードバックと不特定政策クラスを備えたIERMの高速な後悔である。
シミュレーションおよび実データ上での確率的最短経路の例を用いて,異なる手法の性能を数値的に比較し,実験結果から実測値を得る。
関連論文リスト
- Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Dissecting the Impact of Model Misspecification in Data-driven Optimization [20.35205476800932]
データ駆動最適化は、推定コストの決定を最適化することで、機械学習モデルを意思決定に変換することを目的としている。
より最近のアプローチでは、推定誤差の代わりに決定誤差を最小限に抑える推定最適化統合を採用している。
我々は、基礎となるモデルが誤って特定されたときに、トップ2の後悔の言葉に「統合アプローチが普遍的な二重利益をもたらす」ことを示します。
論文 参考訳(メタデータ) (2025-03-01T21:31:54Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method [4.061135251278187]
資源制約を考慮したオンライン文脈決定問題について検討する。
本稿では,「スマート予測-then-(SPO)」法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
提案手法の全体的な収束速度はオンラインミラー降下の$mathcalO(T-1/2)$収束に依存することを示す。
論文 参考訳(メタデータ) (2022-06-15T06:16:13Z) - Stochastic Contextual Dueling Bandits under Linear Stochastic
Transitivity Models [25.336599480692122]
我々は,コンテキスト情報を用いた決闘バンディット問題における後悔の最小化タスクについて検討する。
本稿では,フィードバックプロセスの模倣に基づく計算効率のよいアルゴリズムである$texttCoLSTIM$を提案する。
本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T17:44:19Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。