論文の概要: Statistical Reinforcement Learning in the Real World: A Survey of Challenges and Future Directions
- arxiv url: http://arxiv.org/abs/2601.15353v1
- Date: Wed, 21 Jan 2026 04:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.369781
- Title: Statistical Reinforcement Learning in the Real World: A Survey of Challenges and Future Directions
- Title(参考訳): 実世界における統計的強化学習 : 課題と今後の方向性
- Authors: Asim H. Gazi, Yongyi Guo, Daiqi Gao, Ziping Xu, Kelly W. Zhang, Susan A. Murphy,
- Abstract要約: 強化学習(RL)は現実世界の意思決定において顕著な成功を収めた。
これらの進歩にもかかわらず、RL研究と多くの実践的な環境での展開の間には大きなギャップが残っている。
- 参考スコア(独自算出の注目度): 10.09517573862446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has achieved remarkable success in real-world decision-making across diverse domains, including gaming, robotics, online advertising, public health, and natural language processing. Despite these advances, a substantial gap remains between RL research and its deployment in many practical settings. Two recurring challenges often underlie this gap. First, many settings offer limited opportunity for the agent to interact extensively with the target environment due to practical constraints. Second, many target environments often undergo substantial changes, requiring redesign and redeployment of RL systems (e.g., advancements in science and technology that change the landscape of healthcare delivery). Addressing these challenges and bridging the gap between basic research and application requires theory and methodology that directly inform the design, implementation, and continual improvement of RL systems in real-world settings. In this paper, we frame the application of RL in practice as a three-component process: (i) online learning and optimization during deployment, (ii) post- or between-deployment offline analyses, and (iii) repeated cycles of deployment and redeployment to continually improve the RL system. We provide a narrative review of recent advances in statistical RL that address these components, including methods for maximizing data utility for between-deployment inference, enhancing sample efficiency for online learning within-deployment, and designing sequences of deployments for continual improvement. We also outline future research directions in statistical RL that are use-inspired -- aiming for impactful application of RL in practice.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、オンライン広告、公衆衛生、自然言語処理など、さまざまな分野における現実的な意思決定において、顕著な成功を収めている。
これらの進歩にもかかわらず、RL研究と多くの実践的な環境での展開の間には大きなギャップが残っている。
繰り返し発生する2つの課題は、しばしばこのギャップを埋める。
第一に、多くの設定は、エージェントが現実的な制約のためにターゲット環境と広範囲に対話する限られた機会を提供する。
第二に、多くのターゲット環境は、しばしば実質的な変化を受けており、RLシステムの再設計と再デプロイを必要としている(例えば、医療提供の状況を変える科学と技術の進歩)。
これらの課題に対処し、基礎研究と応用のギャップを埋めるには、現実の環境でRLシステムの設計、実装、継続的な改善を直接通知する理論と方法論が必要である。
本稿では,RLを3成分プロセスとして適用する。
i) デプロイ中のオンライン学習と最適化。
(二 配置後又は配置間オフライン分析、及び
三 RL システムを継続的に改善するため、配置と再配置を繰り返します。
本稿では、これらのコンポーネントに対処する統計RLの最近の進歩について概説する。その中には、デプロイメント間推論のためのデータユーティリティの最大化、デプロイ内におけるオンライン学習のためのサンプル効率の向上、継続的改善のためのデプロイメントシーケンスの設計などが含まれる。
また、実際にRLを効果的に適用することを目的とした、利用に触発された統計的RLの今後の研究方向性についても概説する。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - A Survey of Reinforcement Learning for Software Engineering [14.709084727619121]
強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定のための強力なパラダイムとして登場した。
2015年にDeep Reinforcement Learning (DRL)が導入されて以降、22のプレミアソフトウェアエンジニアリング会場で115のピアレビュー研究をレビューした。
オープンな課題を特定し、この発展途上の領域で進行中の作業のガイドとインスピレーションを行うための今後の研究指針を提案しました。
論文 参考訳(メタデータ) (2025-07-14T14:28:37Z) - Yes, Q-learning Helps Offline In-Context RL [69.26691452160505]
本研究では,オフラインのテキスト内強化学習フレームワークにおけるRL目標の統合について検討する。
RL目標の最適化は、広く採用されているアルゴリズム蒸留(AD)と比較して、平均で約30%向上することを示した。
私たちの結果は、バリュー学習中に保守性を追加することで、テストされたほぼすべての設定にさらなる改善がもたらされることも示しています。
論文 参考訳(メタデータ) (2025-02-24T21:29:06Z) - Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [43.27239522837257]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。