論文の概要: On the Opportunities and Challenges of using Animals Videos in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.12347v1
- Date: Sun, 25 Sep 2022 23:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:19:28.158854
- Title: On the Opportunities and Challenges of using Animals Videos in
Reinforcement Learning
- Title(参考訳): 強化学習における動物ビデオの利用の可能性と課題
- Authors: Vittorio Giammarino
- Abstract要約: 動物ビデオを用いて強化学習(RL)の効率と性能を向上させる可能性を検討する。
理論的観点からは、オフポリティクスRLに対する重み付けポリシー最適化の利用を動機付け、ビデオから学習する際の主な課題を説明し、解決策を提案する。
- 参考スコア(独自算出の注目度): 1.713291434132985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the possibility of using animals videos to improve
Reinforcement Learning (RL) efficiency and performance. Under a theoretical
perspective, we motivate the use of weighted policy optimization for off-policy
RL, describe the main challenges when learning from videos and propose
solutions. We test our ideas both in offline and online RL and show encouraging
results on a series of 2D navigation tasks.
- Abstract(参考訳): 動物ビデオを用いて強化学習(RL)の効率と性能を向上させる可能性を検討する。
理論的観点からは,オフ・ポリシーrlにおける重み付きポリシー最適化の利用を動機付け,ビデオから学ぶ際の課題を説明し,解決策を提案する。
我々は、オフラインとオンラインのRLの両方でアイデアをテストし、一連の2Dナビゲーションタスクにおいて奨励的な結果を示す。
関連論文リスト
- Toward Computationally Efficient Inverse Reinforcement Learning via
Reward Shaping [42.09724642733125]
この研究は、各RLサブプロブレムの計算負担を軽減するために、ポテンシャルベースの報酬形成の利用を動機付けている。
本研究は概念実証として機能し,計算効率の高いIRLに向けた今後の発展を期待する。
論文 参考訳(メタデータ) (2023-12-15T17:50:18Z) - Diagnosing and exploiting the computational demands of videos games for
deep reinforcement learning [13.98405611352641]
本稿では,タスクの知覚的および強化的学習要求を測定するツールであるLearning Challenge Diagnosticator (LCD)を紹介する。
我々はLCDを用いて、Procgenベンチマークの新たな課題の分類を発見し、これらの予測が信頼性が高く、アルゴリズム開発を指導できることを示す。
論文 参考訳(メタデータ) (2023-09-22T21:03:33Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Vid2Act: Activate Offline Videos for Visual RL [62.43468793011923]
モデルベースのRL手法であるVid2Actを提案する。
具体的には、ドメイン選択的な知識蒸留損失を用いて、時間変化のあるタスク類似点のセットを生成するよう、世界モデルを訓練する。
本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Making Offline RL Online: Collaborative World Models for Offline Visual
Reinforcement Learning [99.59728624855566]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Balancing a CartPole System with Reinforcement Learning -- A Tutorial [5.5701008180812375]
本稿では,Cart-Poleシステムを制御するための各種強化学習(RL)アルゴリズムについて述べる。
特に、Q-learning、Deep Q Networks (DQN)、Double DQN、Dueling Network、(優先順位付けされた)経験の再現など、様々なRL概念を説明し、学習性能への影響を示す。
論文 参考訳(メタデータ) (2020-06-08T21:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。