論文の概要: On the Opportunities and Challenges of using Animals Videos in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.12347v1
- Date: Sun, 25 Sep 2022 23:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:19:28.158854
- Title: On the Opportunities and Challenges of using Animals Videos in
Reinforcement Learning
- Title(参考訳): 強化学習における動物ビデオの利用の可能性と課題
- Authors: Vittorio Giammarino
- Abstract要約: 動物ビデオを用いて強化学習(RL)の効率と性能を向上させる可能性を検討する。
理論的観点からは、オフポリティクスRLに対する重み付けポリシー最適化の利用を動機付け、ビデオから学習する際の主な課題を説明し、解決策を提案する。
- 参考スコア(独自算出の注目度): 1.713291434132985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the possibility of using animals videos to improve
Reinforcement Learning (RL) efficiency and performance. Under a theoretical
perspective, we motivate the use of weighted policy optimization for off-policy
RL, describe the main challenges when learning from videos and propose
solutions. We test our ideas both in offline and online RL and show encouraging
results on a series of 2D navigation tasks.
- Abstract(参考訳): 動物ビデオを用いて強化学習(RL)の効率と性能を向上させる可能性を検討する。
理論的観点からは,オフ・ポリシーrlにおける重み付きポリシー最適化の利用を動機付け,ビデオから学ぶ際の課題を説明し,解決策を提案する。
我々は、オフラインとオンラインのRLの両方でアイデアをテストし、一連の2Dナビゲーションタスクにおいて奨励的な結果を示す。
関連論文リスト
- Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。
事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。
この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文 参考訳(メタデータ) (2024-11-05T15:18:02Z) - An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-02T14:16:23Z) - Enhancing Reinforcement Learning Through Guided Search [4.111084095218968]
オフラインの政策学習では、潜在的な政策エラーを軽減するための基準ポリシーに近づき続けることが一般的である。
異なる環境ではありますが,同じようなコンセプトがパフォーマンス向上に有効かどうか,という疑問が浮かび上がっています。
実験はAtari 100kベンチマークで行った。
論文 参考訳(メタデータ) (2024-08-19T16:00:02Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Diagnosing and exploiting the computational demands of videos games for
deep reinforcement learning [13.98405611352641]
本稿では,タスクの知覚的および強化的学習要求を測定するツールであるLearning Challenge Diagnosticator (LCD)を紹介する。
我々はLCDを用いて、Procgenベンチマークの新たな課題の分類を発見し、これらの予測が信頼性が高く、アルゴリズム開発を指導できることを示す。
論文 参考訳(メタデータ) (2023-09-22T21:03:33Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Balancing a CartPole System with Reinforcement Learning -- A Tutorial [5.5701008180812375]
本稿では,Cart-Poleシステムを制御するための各種強化学習(RL)アルゴリズムについて述べる。
特に、Q-learning、Deep Q Networks (DQN)、Double DQN、Dueling Network、(優先順位付けされた)経験の再現など、様々なRL概念を説明し、学習性能への影響を示す。
論文 参考訳(メタデータ) (2020-06-08T21:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。