Fugu-MT 論文翻訳(概要): Optimal Data Acquisition for Reinforcement Learning: A Large Deviations Perspective

論文の概要: Optimal Data Acquisition for Reinforcement Learning: A Large Deviations Perspective

arxiv url: http://arxiv.org/abs/2605.28675v1
Date: Wed, 27 May 2026 16:08:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:56.198853
Title: Optimal Data Acquisition for Reinforcement Learning: A Large Deviations Perspective
Title（参考訳）: 強化学習のための最適データ取得:大規模逸脱の視点から
Authors: Mingjie Hu, Jian-Qiang Hu, Enlu Zhou,
Abstract要約: 本稿では,政策選択誤差確率の指数的減衰率を原理的効率指標として紹介する。我々は、ネストされた問題の最適解という観点から、最適性の相補的な2つの概念を定式化する。得られた強化学習アルゴリズムは, 最適性基準の下でほぼロマンスに最適であることが証明された。
参考スコア（独自算出の注目度）: 5.848643785361479
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data acquisition efficiency is a central challenge in deploying reinforcement learning in business and healthcare operations, where interactions are costly, slow, and often involve humans in the loop. This paper develops a unified large deviations framework for data acquisition in infinite-horizon reinforcement learning. We introduce the exponential decay rate of the policy-selection error probability as a principled efficiency metric and derive a variational characterization of this rate via large deviations theory for Markov chains, yielding a nested optimization problem. Based on this characterization, we formalize two complementary notions of optimality in terms of the optimal solution of the nested problem. Because the resulting program is implicit and generally intractable, we propose a tractable convex relaxation with explicit constraints. We then develop a lazy one-step projected subgradient method to solve the relaxed problem and use its iterates to construct an adaptive data acquisition policy. We prove that the resulting reinforcement learning algorithm is near-robustly optimal under our optimality criterion, up to a constant factor. Finally, we extend the framework to linear function approximation to improve scalability, and numerical experiments support the effectiveness of the proposed approach.
Abstract（参考訳）: データ取得効率は、ビジネスと医療の運用において強化学習を展開させる上で、中心的な課題である。本稿では、無限水平強化学習におけるデータ取得のための統合された大規模偏差フレームワークを開発する。我々は,政策選択誤差確率の指数的減衰率を原理的効率指標として導入し,マルコフ連鎖に対する大きな偏差理論により,この速度の変動特性を導出し,ネスト最適化問題を導出する。この特徴に基づいて、ネストされた問題の最適解という観点から、最適性の相補的な2つの概念を定式化する。結果として得られるプログラムは暗黙的かつ一般に難解であるため、明示的な制約を伴う抽出可能な凸緩和を提案する。次に、緩和された問題を解くための遅延一段階の段階的手法を開発し、その反復を使って適応的なデータ取得ポリシーを構築する。得られた強化学習アルゴリズムは, 最適性基準の下でほぼロマンスに最適であることが証明された。最後に,フレームワークを線形関数近似に拡張してスケーラビリティを向上し,提案手法の有効性を数値実験で実証する。

関連論文リスト

Closing the Generalization Gap in Parameter-efficient Federated Edge Learning [43.00634399799955]
フェデレーションエッジラーニング(FEEL)は人工知能(AI)のための有望な基盤を提供する限定的で異種なローカルデータセット、およびリソース制限されたデプロイメントは、モデル一般化とリソース利用の両方を著しく低下させる。本稿では,モデル最小化と一般化選択を併用して,このような課題に対処するフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-28T15:34:09Z)
Efficient Group Lasso Regularized Rank Regression with Data-Driven Parameter Determination [2.847099287022546]
高次元回帰は、しばしば重み付きノイズと外れ値に悩まされ、最小二乗法の信頼性を著しく損なう。頑健性を改善するため、非滑らかなウィルコクソンスコアに基づくランク目標を採用し、構造化群空間正規化を取り入れた。また、データ駆動のシミュレーションに基づくチューニングルールを導入し、その結果の予測値に有限サンプル誤差を限定する。
論文参考訳（メタデータ） (2025-10-13T15:45:58Z)
Semiparametric Counterfactual Regression [2.356908851188234]
一般化可能なフレームワーク内での非実効的回帰のための2つの頑健なスタイル推定器を提案する。当社のアプローチでは,標準手法を維持しながら適応性を高めるために,漸進的な介入を用いる。解析の結果,提案した推定器は幅広い問題に対して$sqrn$-consistencyと正規性が得られることがわかった。
論文参考訳（メタデータ） (2025-04-03T15:32:26Z)
Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文参考訳（メタデータ） (2024-07-24T12:00:30Z)
OTClean: Data Cleaning for Conditional Independence Violations using Optimal Transport [51.6416022358349]
sysは、条件付き独立性(CI)制約下でのデータ修復に最適な輸送理論を利用するフレームワークである。我々はSinkhornの行列スケーリングアルゴリズムにインスパイアされた反復アルゴリズムを開発し、高次元および大規模データを効率的に処理する。
論文参考訳（メタデータ） (2024-03-04T18:23:55Z)
Analyzing and Enhancing the Backward-Pass Convergence of Unrolled Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。 Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文参考訳（メタデータ） (2023-12-28T23:15:18Z)
Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。 1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文参考訳（メタデータ） (2023-01-28T01:50:42Z)
Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文参考訳（メタデータ） (2022-11-14T21:54:31Z)
Efficient Learning of Decision-Making Models: A Penalty Block Coordinate Descent Algorithm for Data-Driven Inverse Optimization [12.610576072466895]
我々は、意思決定プロセスを明らかにするために、事前の意思決定データを使用する逆問題を考える。この統計的学習問題は、データ駆動逆最適化と呼ばれる。そこで本稿では,大規模問題を解くために,効率的なブロック座標降下に基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-27T12:52:56Z)
Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。これらの問題に対する新規で簡単な最適化法を開発した。結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文参考訳（メタデータ） (2021-09-23T17:38:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。