論文の概要: Diffusion Reward: Learning Rewards via Conditional Video Diffusion
- arxiv url: http://arxiv.org/abs/2312.14134v2
- Date: Mon, 18 Mar 2024 04:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:32:43.024935
- Title: Diffusion Reward: Learning Rewards via Conditional Video Diffusion
- Title(参考訳): 拡散逆流:条件付きビデオ拡散による逆流の学習
- Authors: Tao Huang, Guangqi Jiang, Yanjie Ze, Huazhe Xu,
- Abstract要約: Diffusion Rewardは、複雑な視覚的RL問題を解決するための条件付きビデオ拡散モデルを通じて、エキスパートビデオから報酬を学ぶフレームワークである。
我々の重要な洞察は、専門家の軌道で条件付けされた場合、低い生成多様性が観察されるということである。
本稿では,メタワールドとアドロイトのロボット操作タスク10名に対して,視覚的インプットとスパース報酬が有効であることを示す。
- 参考スコア(独自算出の注目度): 26.73119637442011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rewards from expert videos offers an affordable and effective solution to specify the intended behaviors for reinforcement learning tasks. In this work, we propose Diffusion Reward, a novel framework that learns rewards from expert videos via conditional video diffusion models for solving complex visual RL problems. Our key insight is that lower generative diversity is observed when conditioned on expert trajectories. Diffusion Reward is accordingly formalized by the negative of conditional entropy that encourages productive exploration of expert-like behaviors. We show the efficacy of our method over 10 robotic manipulation tasks from MetaWorld and Adroit with visual input and sparse reward. Moreover, Diffusion Reward could even solve unseen tasks successfully and effectively, largely surpassing baseline methods. Project page and code: https://diffusion-reward.github.io/.
- Abstract(参考訳): エキスパートビデオからの学習報酬は、強化学習タスクの意図した振る舞いを特定するための、安価で効果的なソリューションを提供する。
本研究では,複雑な視覚的RL問題を解くための条件付きビデオ拡散モデルを用いて,エキスパートビデオから報酬を学習する新しいフレームワークであるDiffusion Rewardを提案する。
我々の重要な洞察は、専門家の軌道で条件付けされた場合、低い生成多様性が観察されるということである。
拡散逆転は、専門家のような行動の生産的探索を促進する条件エントロピーの負によって形式化される。
本稿では,メタワールドとアドロイトのロボット操作タスク10名に対して,視覚的インプットとスパース報酬が有効であることを示す。
さらに、ディフュージョン・リワードは未確認のタスクをうまく効果的に解決し、ベースラインの手法をはるかに超えた。
プロジェクトページとコード:https://diffusion-reward.github.io/
関連論文リスト
- Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - Embedding Contextual Information through Reward Shaping in Multi-Agent
Learning: A Case Study from Google Football [0.0]
我々は、報酬関数に文脈情報を埋め込むことで、新たな報酬形成手法を作成する。
Google Research Football (GRF) 環境でこれを実証する。
実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最新のMARLアルゴリズムに,報奨形法が有用であることが確認された。
論文 参考訳(メタデータ) (2023-03-25T10:21:13Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-11T08:35:18Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。