Fugu-MT 論文翻訳(概要): End-Effect Exploration Drive for Effective Motor Learning

論文の概要: End-Effect Exploration Drive for Effective Motor Learning

arxiv url: http://arxiv.org/abs/2006.15960v2
Date: Mon, 5 Oct 2020 14:43:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 13:29:34.584213
Title: End-Effect Exploration Drive for Effective Motor Learning
Title（参考訳）: 効率的なモータ学習のためのエンドエフェクト探索ドライブ
Authors: Emmanuel Dauc\'e
Abstract要約: 強化学習の主な目的は、効果の標的分布を反転させることである。目標指向の運動学習を実現する効果的な方法として,エンドエフェクトドライブを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stemming on the idea that a key objective in reinforcement learning is to invert a target distribution of effects, end-effect drives are proposed as an effective way to implement goal-directed motor learning, in the absence of an explicit forward model. An end-effect model relies on a simple statistical recording of the effect of the current policy, here used as a substitute for the more resource-demanding forward models. When combined with a reward structure, it forms the core of a lightweight variational free energy minimization setup. The main difficulty lies in the maintenance of this simplified effect model together with the online update of the policy. When the prior target distribution is uniform, it provides a ways to learn an efficient exploration policy, consistently with the intrinsic curiosity principles. When combined with an extrinsic reward, our approach is finally shown to provide a faster training than traditional off-policy techniques.
Abstract（参考訳）: 強化学習における鍵となる目的は効果のターゲット分布を逆転させることであり、明確な前方モデルがない場合にゴール指向の運動学習を実現する効果的な方法としてエンドエフェクトドライブを提案する。エンドエフェクトモデルは、現在のポリシーの効果の単純な統計記録に依存しており、ここではよりリソースを要求されるフォワードモデルの代用として使用される。報酬構造と組み合わせると、軽量な変動自由エネルギー最小化装置のコアとなる。主な難点は、この単純化された効果モデルの維持と、ポリシーのオンライン更新である。事前の目標分布が均一であれば、本質的な好奇心の原則と一貫して、効率的な探索政策を学ぶ方法を提供する。極端な報酬と組み合わせることで、我々のアプローチは、従来のオフポリシーのテクニックよりも高速なトレーニングを提供することが示されます。

関連論文リスト

Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Maximum Total Correlation Reinforcement Learning [23.209609715886454]
誘導軌道内の全相関を最大化する強化学習問題を修正した。シミュレーションロボット環境において,本手法は周期的かつ圧縮的な軌道を誘導するポリシーを自然に生成する。
論文参考訳（メタデータ） (2025-05-22T14:48:00Z)
Trajectory Entropy Reinforcement Learning for Predictable and Robust Control [12.289021814766539]
強化学習におけるシンプルな政策に対する新たな帰納的バイアスを導入する。単純な帰納バイアスは、作用軌跡全体のエントロピーを最小化することによって導入される。学習方針がより循環的かつ一貫した行動軌跡を生み出すことを示す。
論文参考訳（メタデータ） (2025-05-07T07:41:29Z)
Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文参考訳（メタデータ） (2025-03-17T14:28:08Z)
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。本稿では,従来のオンライン学習と比較して,新しい伝達学習原理と証明可能な利点を持つ理論的アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-26T16:03:06Z)
AdaWM: Adaptive World Model based Planning for Autonomous Driving [34.57859869929471]
世界モデルに基づく強化学習(RL)が自律運転の有望なアプローチとして登場した。プレトレイン-ファイントゥンパラダイムは、オンラインRLが事前訓練されたモデルによってパフォーマンスされ、オフラインで学習されるポリシーで使用されることが多い。本稿では,アダプティブ・ワールド・モデルに基づく計画手法であるAdaWMを紹介する。(a)ミスマッチを定量化し,微調整戦略を通知するミスマッチ識別と,(b)ポリシーやモデルを必要に応じて選択的に更新するアライメント駆動微調整である。
論文参考訳（メタデータ） (2025-01-22T18:34:51Z)
Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文参考訳（メタデータ） (2024-08-30T16:16:57Z)
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
Implicit Training of Energy Model for Structure Prediction [14.360826930970765]
本研究では,既存の推論ネットワークに基づく構造予測手法が,エネルギーモデルによりパラメータ化された動的損失目標を最適化するために間接的に学習されていることを論じる。次に、暗黙の漸進的手法を用いて、対応する動的目的を学習する。
論文参考訳（メタデータ） (2022-11-21T17:08:44Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。 MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文参考訳（メタデータ） (2021-03-25T13:50:24Z)
Model-free and Bayesian Ensembling Model-based Deep Reinforcement Learning for Particle Accelerator Control Demonstrated on the FERMI FEL [0.0]
本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。 FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
論文参考訳（メタデータ） (2020-12-17T16:57:27Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。