論文の概要: FORK: A Forward-Looking Actor For Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.01652v3
- Date: Wed, 29 Sep 2021 16:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:14:08.729776
- Title: FORK: A Forward-Looking Actor For Model-Free Reinforcement Learning
- Title(参考訳): FORK:モデルレス強化学習のための前向きアクター
- Authors: Honghao Wei and Lei Ying
- Abstract要約: FORKはモデルのないアクター・クライブアルゴリズムに容易に組み込むことができる。
FORKのバリエーションは、Bipedal-WalkerHardcoreを1つのGPUで4時間でさらに解くことができる。
- 参考スコア(独自算出の注目度): 11.056440721604863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new type of Actor, named forward-looking Actor or
FORK for short, for Actor-Critic algorithms. FORK can be easily integrated into
a model-free Actor-Critic algorithm. Our experiments on six Box2D and MuJoCo
environments with continuous state and action spaces demonstrate significant
performance improvement FORK can bring to the state-of-the-art algorithms. A
variation of FORK can further solve Bipedal-WalkerHardcore in as few as four
hours using a single GPU.
- Abstract(参考訳): 本稿では,前向きアクター (forward-looking Actor, FORK) という新しいタイプのアクターを提案する。
forkはモデルフリーのアクタ-クリティックアルゴリズムに容易に統合できる。
連続状態と動作空間を持つ6つのBox2DおよびMuJoCo環境に関する実験は、FORKが最先端のアルゴリズムにもたらす顕著な性能改善を実証している。
FORKのバリエーションは、Bipedal-WalkerHardcoreを1つのGPUで4時間でさらに解くことができる。
関連論文リスト
- 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Active contours driven by local and global intensity fitting energy with
application to SAR image segmentation and its fast solvers [6.965119490863576]
本研究では,Aubert-Aujol(Aubert-Aujol(Aubert-Aujol)(Aubert-Aujol(Aubert-Aujol)(Aubert-Aujol)(Aubert-Aujol(Auber t-Aujol)(Aubert-Aujol)(Aubert-Aujol(Aubert-Aujol)(Aubert-Aujol)(Aubert-Aujol(Aubert-Aujol)(Aubert-Au jol)(Aubert-Aujol)(Aubert-Aujol)(Aubert-Aujol)(Aujol(Aubert-Aujol
最近、Jia-Zhaoによって提案された高速デノシングアルゴリズムに着想を得て、SAR画像分割問題の解法として2つの高速固定点アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T04:34:15Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Towards Computationally Feasible Deep Active Learning [4.352935908127189]
アクティブラーニング(AL)は、機械学習モデルのトレーニングに必要なアノテーションの労力を減らすための重要なテクニックである。
ディープラーニングは、実際にALをデプロイする上で不可欠ないくつかの障害に対して解決策を提供するが、他にも多くのものを導入する。
提案アルゴリズムは,より小型で高速な取得モデルであるにもかかわらず,より表現力のある後継モデルを高い性能で訓練できることを示す。
論文 参考訳(メタデータ) (2022-05-07T08:47:42Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Image Augmentation Is All You Need: Regularizing Deep Reinforcement
Learning from Pixels [37.726433732939114]
本稿では,標準モデルフリー強化学習アルゴリズムに適用可能な,シンプルなデータ拡張手法を提案する。
コンピュータビジョンタスクでよく使われる入力摂動を利用して値関数を正規化する。
我々の手法はモデルなし強化学習アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2020-04-28T16:48:16Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。