論文の概要: Optimal Control of the Future via Prospective Foraging
- arxiv url: http://arxiv.org/abs/2511.08717v1
- Date: Thu, 13 Nov 2025 01:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.20792
- Title: Optimal Control of the Future via Prospective Foraging
- Title(参考訳): プロジェクティブ・フォージングによる未来の最適制御
- Authors: Yuxin Bai, Aranyak Acharyya, Ashwin De Silva, Zeyu Shen, James Hassett, Joshua T. Vogelstein,
- Abstract要約: PAC学習フレームワークを非定常環境における学習と制御に拡張する。
我々は、ある程度の一般的な仮定の下で、経験的リスク最小化がベイズ最適政策を達成することを証明した。
既存の強化学習アルゴリズムは、これらの非定常環境では学習できないことを示す。
- 参考スコア(独自算出の注目度): 7.601191355718567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal control of the future is the next frontier for AI. Current approaches to this problem are typically rooted in either reinforcement learning or online learning. While powerful, these frameworks for learning are mathematically distinct from Probably Approximately Correct (PAC) learning, which has been the workhorse for the recent technological achievements in AI. We therefore build on the prior work of prospective learning, an extension of PAC learning (without control) in non-stationary environments (De Silva et al., 2023; Silva et al., 2024; Bai et al., 2026). Here, we further extend the PAC learning framework to address learning and control in non-stationary environments. Using this framework, called ''Prospective Control'', we prove that under certain fairly general assumptions, empirical risk minimization (ERM) asymptotically achieves the Bayes optimal policy. We then consider a specific instance of prospective control, foraging, which is a canonical task for any mobile agent, be it natural or artificial. We illustrate that existing reinforcement learning algorithms fail to learn in these non-stationary environments, and even with modifications, they are orders of magnitude less efficient than our prospective foraging agents. Code is available at: https://github.com/neurodata/ProspectiveLearningwithControl.
- Abstract(参考訳): AIの次のフロンティアは、未来を最適にコントロールすることだ。
この問題に対する現在のアプローチは、典型的には強化学習またはオンライン学習に根ざしている。
しかし、これらの学習のフレームワークは、AIの最近の技術的成果のワークホースである確率的およそ正当性(PAC)学習とは数学的に異なる。
そこで我々は、非定常環境(De Silva et al , 2023; Silva et al , 2024; Bai et al , 2026)におけるPAC学習の拡張(制御なし)である予測学習の先行研究に基づいて構築する。
ここでは、非定常環境における学習と制御に対処するために、PAC学習フレームワークをさらに拡張する。
この枠組みを'プロスペクティブ・コントロール'(Prospective Control)と呼び、一定の一般的な仮定の下で、経験的リスク最小化(ERM)がベイズ最適政策を漸近的に達成することを証明する。
次に、あらゆる移動エージェントにとって標準的なタスクである、予測制御、採餌の特定の例を、自然または人工的なものとみなす。
既存の強化学習アルゴリズムは、これらの非定常環境では学習に失敗し、修正しても、予想される捕食エージェントよりも桁違いに効率が良くないことを示す。
コードは、https://github.com/neurodata/ProspectiveLearningwithControlで入手できる。
関連論文リスト
- Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning [2.5352713493505785]
報酬信号の最大化によって、人工エージェントに環境との対話を教えるアルゴリズムである強化学習は、近年大きな成功を収めている。
有望な研究の方向性の1つは、一般に階層的またはカリキュラム強化学習を通じて、マルチモーダルポリシーを許容するための目標の導入である。
本稿では,継続的制御およびナビゲーションタスクにおける強化学習エージェントの目標を提案するための,確率論的カリキュラム学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-02T08:15:16Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free
Reinforcement Learning [86.06110576808824]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。
機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界では4分で学習できる。
論文 参考訳(メタデータ) (2022-08-16T17:37:36Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z) - Multiplicative Controller Fusion: Leveraging Algorithmic Priors for
Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer [18.50206483493784]
本稿では,既存の準最適解を活用可能なモデルフリー強化学習手法を提案する。
訓練中は, ゲート融合法により, 先行者が探査の初期段階を案内できる。
本稿では,ロボットナビゲーションにおけるマルチプリケーティブ・コントローラ・フュージョン・アプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-03-11T05:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。