論文の概要: Optimal control of the future via prospective learning with control
- arxiv url: http://arxiv.org/abs/2511.08717v2
- Date: Wed, 19 Nov 2025 17:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.419015
- Title: Optimal control of the future via prospective learning with control
- Title(参考訳): 制御による予測学習による未来の最適制御
- Authors: Yuxin Bai, Aranyak Acharyya, Ashwin De Silva, Zeyu Shen, James Hassett, Joshua T. Vogelstein,
- Abstract要約: AIの次のフロンティアは、未来を最適にコントロールすることだ。
この問題に対する現在のアプローチは、典型的には強化学習(RL)または教師付き学習に根ざしている。
ここでは、教師あり学習を拡張して、非定常かつリセットのない環境での学習に対処する。
- 参考スコア(独自算出の注目度): 7.601191355718567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal control of the future is the next frontier for AI. Current approaches to this problem are typically rooted in either reinforcement learning (RL). While powerful, this learning framework is mathematically distinct from supervised learning, which has been the main workhorse for the recent achievements in AI. Moreover, RL typically operates in a stationary environment with episodic resets, limiting its utility to more realistic settings. Here, we extend supervised learning to address learning to control in non-stationary, reset-free environments. Using this framework, called ''Prospective Learning with Control (PL+C)'', we prove that under certain fairly general assumptions, empirical risk minimization (ERM) asymptotically achieves the Bayes optimal policy. We then consider a specific instance of prospective learning with control, foraging -- which is a canonical task for any mobile agent -- be it natural or artificial. We illustrate that modern RL algorithms fail to learn in these non-stationary reset-free environments, and even with modifications, they are orders of magnitude less efficient than our prospective foraging agents.
- Abstract(参考訳): AIの次のフロンティアは、未来を最適にコントロールすることだ。
この問題に対する現在のアプローチは、典型的には強化学習(RL)に根ざしている。
パワフルではあるが、この学習フレームワークは、AIの最近の成果の主要なワークホースである教師付き学習とは数学的に異なる。
さらに、RLは典型的には静止環境で動作し、その実用性はより現実的な設定に制限される。
ここでは、教師あり学習を拡張して、非定常かつリセットのない環境での学習に対処する。
この枠組みは「PL+C(Prospective Learning with Control)」と呼ばれ、一定の一般的な仮定の下では、経験的リスク最小化(ERM)がベイズ最適政策を漸近的に達成することを証明する。
次に、制御、採餌 -- あらゆる移動エージェントにとって標準的なタスク -- による予測学習の特定の例は、自然か人工か、と考える。
最新のRLアルゴリズムは、これらの非定常リセットのない環境では学習できず、修正しても、予想される捕食エージェントよりも桁違いに効率が良くないことを示す。
関連論文リスト
- Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning [2.5352713493505785]
報酬信号の最大化によって、人工エージェントに環境との対話を教えるアルゴリズムである強化学習は、近年大きな成功を収めている。
有望な研究の方向性の1つは、一般に階層的またはカリキュラム強化学習を通じて、マルチモーダルポリシーを許容するための目標の導入である。
本稿では,継続的制御およびナビゲーションタスクにおける強化学習エージェントの目標を提案するための,確率論的カリキュラム学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-02T08:15:16Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free
Reinforcement Learning [86.06110576808824]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。
機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界では4分で学習できる。
論文 参考訳(メタデータ) (2022-08-16T17:37:36Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z) - Multiplicative Controller Fusion: Leveraging Algorithmic Priors for
Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer [18.50206483493784]
本稿では,既存の準最適解を活用可能なモデルフリー強化学習手法を提案する。
訓練中は, ゲート融合法により, 先行者が探査の初期段階を案内できる。
本稿では,ロボットナビゲーションにおけるマルチプリケーティブ・コントローラ・フュージョン・アプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-03-11T05:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。