Fugu-MT 論文翻訳(概要): All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL

論文の概要: All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL

arxiv url: http://arxiv.org/abs/2202.11960v1
Date: Thu, 24 Feb 2022 08:44:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-25 16:20:52.556021
Title: All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL
Title（参考訳）: 学習を監督することだけ: 模倣学習から、逆さまのrlでメタrlまで
Authors: Kai Arulkumaran, Dylan R. Ashley, J\"urgen Schmidhuber, Rupesh K. Srivastava
Abstract要約: 上向き強化学習(UDRL)は、従来のRLの目的関数の戻り値の使用をひっくり返す。 UDRLは純粋に教師付き学習に基づいており、ブートストラップ、オフポリシー修正、割引係数といった、RLのいくつかの大きな問題を回避している。
参考スコア（独自算出の注目度）: 0.5735035463793008
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Upside down reinforcement learning (UDRL) flips the conventional use of the return in the objective function in RL upside down, by taking returns as input and predicting actions. UDRL is based purely on supervised learning, and bypasses some prominent issues in RL: bootstrapping, off-policy corrections, and discount factors. While previous work with UDRL demonstrated it in a traditional online RL setting, here we show that this single algorithm can also work in the imitation learning and offline RL settings, be extended to the goal-conditioned RL setting, and even the meta-RL setting. With a general agent architecture, a single UDRL agent can learn across all paradigms.
Abstract（参考訳）: アップサイドダウン強化学習(UDRL)は、リターンを入力として、予測アクションとして、リターンをRLの目的関数のリターンを逆転させる。 UDRLは純粋に教師付き学習に基づいており、ブートストラップ、オフポリシー修正、割引係数といった、RLの大きな問題を回避している。 UDRLによる以前の研究は、従来のオンラインRL設定で実証されていたが、ここでは、この単一のアルゴリズムが模倣学習やオフラインRL設定でも機能し、ゴール条件付きRL設定やメタRL設定まで拡張可能であることを示す。汎用エージェントアーキテクチャでは、単一のUDRLエージェントがすべてのパラダイムにわたって学習することができる。

関連論文リスト

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。 RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文参考訳（メタデータ） (2025-01-28T18:59:44Z)
RLInspect: An Interactive Visual Approach to Assess Reinforcement Learning Algorithm [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の急速に成長する分野である。 RLモデルを評価することは困難であり、その振る舞いを理解するのが難しくなる。我々はインタラクティブな視覚分析ツールであるRLInspectを開発した。 RLモデルのさまざまなコンポーネント - 状態、アクション、エージェントアーキテクチャ、報酬 - を考慮しており、RLトレーニングのより包括的なビューを提供する。
論文参考訳（メタデータ） (2024-11-13T07:24:14Z)
Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。 U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。 U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文参考訳（メタデータ） (2024-08-27T05:23:45Z)
Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文参考訳（メタデータ） (2024-06-13T17:07:49Z)
Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文参考訳（メタデータ） (2023-09-04T09:09:54Z)
SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。 SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文参考訳（メタデータ） (2023-06-29T05:16:25Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを介してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$に比べて長期で累積報酬が大きくなる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューションタスクをより一般化することを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
A Tutorial on Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-06-15T14:34:15Z)
Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-03T15:11:10Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
EasyRL: A Simple and Extensible Reinforcement Learning Framework [3.2173369911280023]
EasyRLは、ユーザがRLエージェントをトレーニングし、評価するためのインタラクティブなグラフィカルユーザインターフェースを提供する。 EasyRLは、単純な組み込みRLエージェントのトレーニングとテストのためのプログラミング知識を必要としない。 EasyRLはカスタムRLエージェントと環境もサポートしており、RLモデルの評価と比較において、RL研究者にとって非常に有益である。
論文参考訳（メタデータ） (2020-08-04T17:02:56Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。