論文の概要: Reinforcement Learning from Passive Data via Latent Intentions
- arxiv url: http://arxiv.org/abs/2304.04782v1
- Date: Mon, 10 Apr 2023 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 17:12:41.269133
- Title: Reinforcement Learning from Passive Data via Latent Intentions
- Title(参考訳): 潜在意図による受動データからの強化学習
- Authors: Dibya Ghosh, Chethan Bhateja, Sergey Levine
- Abstract要約: 我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
- 参考スコア(独自算出の注目度): 86.4969514480008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Passive observational data, such as human videos, is abundant and rich in
information, yet remains largely untapped by current RL methods. Perhaps
surprisingly, we show that passive data, despite not having reward or action
labels, can still be used to learn features that accelerate downstream RL. Our
approach learns from passive data by modeling intentions: measuring how the
likelihood of future outcomes change when the agent acts to achieve a
particular task. We propose a temporal difference learning objective to learn
about intentions, resulting in an algorithm similar to conventional RL, but
which learns entirely from passive data. When optimizing this objective, our
agent simultaneously learns representations of states, of policies, and of
possible outcomes in an environment, all from raw observational data. Both
theoretically and empirically, this scheme learns features amenable for value
prediction for downstream tasks, and our experiments demonstrate the ability to
learn from many forms of passive data, including cross-embodiment video data
and YouTube videos.
- Abstract(参考訳): 人間のビデオのようなパッシブな観察データは豊富で情報に富んでいるが、現在のRL法にはほとんど使われていない。
おそらく意外なことに、報奨やアクションラベルがないにもかかわらず、受動的データは、下流のRLを加速する機能を学ぶのに使うことができる。
我々のアプローチは、エージェントが特定のタスクを達成するために行動するとき、将来の結果がどう変化するかを測定するという意図をモデル化することで、受動的データから学習します。
本稿では,従来のRLに類似したアルゴリズムを学習するが,受動的データから完全に学習する時間差学習目標を提案する。
この目的を最適化する際、エージェントは生の観測データから、環境における状態、政策、および可能な結果の表現を同時に学習する。
理論上,経験上,このスキームは下流タスクにおける価値予測に適する特徴を学習し,実験ではクロスエンボディメント・ビデオデータやyoutubeビデオなど,様々な形態の受動的データから学習できることを実証した。
関連論文リスト
- FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning [28.523528119584526]
擬似学習は、与えられた下流タスクに対するポリシーを効率的に適応するために、少数のタスク固有のデモンストレーションにのみ依存する。
本稿では,従来のデータから目標タスクに類似した動作を抽出するために,光フロー表現を利用するFlowRetrievalを提案する。
その結果,FlowRetrievalは,シミュレーションや実世界のドメイン間で,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-29T23:48:08Z) - VERSE: Virtual-Gradient Aware Streaming Lifelong Learning with Anytime
Inference [36.61783715563126]
生涯学習をストリーミングすることは、忘れずに継続的な学習を目標とすることで、生涯学習の挑戦的な設定である。
ストリーミング(学習例は1回に1回のみ)である生涯学習に新たなアプローチを導入する。
本稿では,各新しい例に適応し,過去のデータにも順応し,破滅的な忘れ込みを防止できる新しいエンフェクチュアル勾配に基づく連続表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T07:54:49Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。