論文の概要: Offline Learning for Planning: A Summary
- arxiv url: http://arxiv.org/abs/2010.01931v1
- Date: Mon, 5 Oct 2020 11:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:30:02.367376
- Title: Offline Learning for Planning: A Summary
- Title(参考訳): 計画のためのオフライン学習:概要
- Authors: Giorgio Angelotti, Nicolas Drougard, Caroline Ponzoni Carvalho Chanel
- Abstract要約: 自律的なエージェントの訓練は、しばしば、環境との高価で安全でない試行錯誤の相互作用を必要とする。
さまざまなタスクを実行するインテリジェントエージェントの記録された経験を含むデータセットは、インターネット上でアクセス可能である。
本稿では,最先端のオフライン学習ベースラインの開発を動機とするアイデアを要約する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of autonomous agents often requires expensive and unsafe
trial-and-error interactions with the environment. Nowadays several data sets
containing recorded experiences of intelligent agents performing various tasks,
spanning from the control of unmanned vehicles to human-robot interaction and
medical applications are accessible on the internet. With the intention of
limiting the costs of the learning procedure it is convenient to exploit the
information that is already available rather than collecting new data.
Nevertheless, the incapability to augment the batch can lead the autonomous
agents to develop far from optimal behaviours when the sampled experiences do
not allow for a good estimate of the true distribution of the environment.
Offline learning is the area of machine learning concerned with efficiently
obtaining an optimal policy with a batch of previously collected experiences
without further interaction with the environment. In this paper we adumbrate
the ideas motivating the development of the state-of-the-art offline learning
baselines. The listed methods consist in the introduction of epistemic
uncertainty dependent constraints during the classical resolution of a Markov
Decision Process, with and without function approximators, that aims to
alleviate the bad effects of the distributional mismatch between the available
samples and real world. We provide comments on the practical utility of the
theoretical bounds that justify the application of these algorithms and suggest
the utilization of Generative Adversarial Networks to estimate the
distributional shift that affects all of the proposed model-free and
model-based approaches.
- Abstract(参考訳): 自律エージェントの訓練は、しばしば、環境との高価で安全でない試行錯誤の相互作用を必要とする。
今日では、無人車両の制御から人間とロボットのインタラクション、医療応用に至るまで、さまざまなタスクをこなすインテリジェントエージェントの記録的な経験を含むいくつかのデータセットがインターネット上でアクセス可能である。
学習手順のコストを制限する目的で、新しいデータを集めるのではなく、既に利用可能な情報を利用するのが便利である。
それにもかかわらず、バッチを増強できないことは、サンプルされた経験が環境の真の分布を適切に推定できない場合に、自律的なエージェントが最適な行動から遠ざかる可能性がある。
オフライン学習は、環境とのさらなる相互作用なしに、事前に収集した経験のバッチで最適なポリシーを効率的に取得することに関わる機械学習の分野である。
本稿では,最先端のオフライン学習ベースラインの開発を動機とするアイデアを要約する。
提案手法は,マルコフ決定過程の古典的解法における不確実性依存的制約の導入と,実世界の分布ミスマッチの悪影響を緩和することを目的としている。
これらのアルゴリズムの適用を正当化するための理論境界の実用的有用性についてコメントするとともに,提案するモデルフリーおよびモデルベースアプローチすべてに影響を与える分布シフトを推定するための生成型逆ネットワークの利用を提案する。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Causal Action Influence Aware Counterfactual Data Augmentation [23.949113120847507]
我々は,オンライン環境のインタラクションにアクセスすることなく,固定データセットから合成トランジションを生成可能なデータ拡張手法であるCAIACを提案する。
因果的影響を定量化するための原理的手法を利用することで、状態空間の$itaction$-unffected部分を交換することで、反ファクト的推論を行うことができる。
これにより、分散シフトに対するオフライン学習アルゴリズムの堅牢性が大幅に向上する。
論文 参考訳(メタデータ) (2024-05-29T09:19:50Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。
主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。
我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-05T11:49:33Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。