論文の概要: Diffusion Reward: Learning Rewards via Conditional Video Diffusion
- arxiv url: http://arxiv.org/abs/2312.14134v3
- Date: Fri, 9 Aug 2024 03:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:40:55.664937
- Title: Diffusion Reward: Learning Rewards via Conditional Video Diffusion
- Title(参考訳): 拡散逆流:条件付きビデオ拡散による逆流の学習
- Authors: Tao Huang, Guangqi Jiang, Yanjie Ze, Huazhe Xu,
- Abstract要約: Diffusion Rewardは、条件付きビデオ拡散モデルを通じて専門家のビデオから報酬を学ぶフレームワークである。
シミュレーションプラットフォームと実世界の両方におけるロボット操作タスクに対する視覚入力の有効性を示す。
- 参考スコア(独自算出の注目度): 26.73119637442011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rewards from expert videos offers an affordable and effective solution to specify the intended behaviors for reinforcement learning (RL) tasks. In this work, we propose Diffusion Reward, a novel framework that learns rewards from expert videos via conditional video diffusion models for solving complex visual RL problems. Our key insight is that lower generative diversity is exhibited when conditioning diffusion on expert trajectories. Diffusion Reward is accordingly formalized by the negative of conditional entropy that encourages productive exploration of expert behaviors. We show the efficacy of our method over robotic manipulation tasks in both simulation platforms and the real world with visual input. Moreover, Diffusion Reward can even solve unseen tasks successfully and effectively, largely surpassing baseline methods. Project page and code: https://diffusion-reward.github.io.
- Abstract(参考訳): エキスパートビデオからの学習報酬は、強化学習(RL)タスクの意図した振る舞いを特定するための、安価で効果的なソリューションを提供する。
本研究では,複雑な視覚的RL問題を解くための条件付きビデオ拡散モデルを用いて,エキスパートビデオから報酬を学習する新しいフレームワークであるDiffusion Rewardを提案する。
我々の重要な洞察は、専門家の軌跡に拡散を条件付ける際に、低い生成多様性を示すことである。
拡散逆転は、専門的行動の生産的探索を促進する条件エントロピーの負によって形式化される。
シミュレーションプラットフォームと実世界の両方におけるロボット操作タスクに対する視覚入力の有効性を示す。
さらに、Diffusion Rewardは、未確認のタスクをうまく効果的に解決し、ベースラインメソッドを大半超えることができる。
プロジェクトページとコード:https://diffusion-reward.github.io.com
関連論文リスト
- On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。
我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-intensiveive Rewards)を提案する。
GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文 参考訳(メタデータ) (2024-10-25T22:11:54Z) - Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning [18.60627708199452]
オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用について検討する。
本稿ではまず,VLMをRLタスクの報酬として適用する際の報酬ミスアライメントの問題を同定する。
ファジィVLM報酬支援RL(FuRL)という軽量微調整法を導入する。
論文 参考訳(メタデータ) (2024-06-02T07:20:08Z) - Diffusion-Reward Adversarial Imitation Learning [33.81857550294019]
シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。
GAIL(Generative Adversarial mimicion Learning)は、対人学習として模倣学習を定式化する。
本稿では拡散モデルとGAILを融合した拡散逆適応学習(DRAIL)を提案する。
論文 参考訳(メタデータ) (2024-05-25T11:53:23Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。