論文の概要: Diffusion Reward: Learning Rewards via Conditional Video Diffusion
- arxiv url: http://arxiv.org/abs/2312.14134v1
- Date: Thu, 21 Dec 2023 18:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 13:44:17.638722
- Title: Diffusion Reward: Learning Rewards via Conditional Video Diffusion
- Title(参考訳): 拡散報酬:条件付きビデオ拡散による学習報酬
- Authors: Tao Huang and Guangqi Jiang and Yanjie Ze and Huazhe Xu
- Abstract要約: Diffusion Rewardは、複雑な視覚的RL問題を解決するための条件付きビデオ拡散モデルを通じて、エキスパートビデオから報酬を学ぶフレームワークである。
我々の重要な洞察は、専門家の軌道で条件付けされた場合、低い生成多様性が観察されるということである。
本稿では,メタワールドとアドロイトのロボット操作タスク10名に対して,視覚的インプットとスパース報酬が有効であることを示す。
- 参考スコア(独自算出の注目度): 29.20191168299986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning rewards from expert videos offers an affordable and effective
solution to specify the intended behaviors for reinforcement learning tasks. In
this work, we propose Diffusion Reward, a novel framework that learns rewards
from expert videos via conditional video diffusion models for solving complex
visual RL problems. Our key insight is that lower generative diversity is
observed when conditioned on expert trajectories. Diffusion Reward is
accordingly formalized by the negative of conditional entropy that encourages
productive exploration of expert-like behaviors. We show the efficacy of our
method over 10 robotic manipulation tasks from MetaWorld and Adroit with visual
input and sparse reward. Moreover, Diffusion Reward could even solve unseen
tasks successfully and effectively, largely surpassing baseline methods.
Project page and code: https://diffusion-reward.github.io/.
- Abstract(参考訳): エキスパートビデオからの学習報酬は、強化学習タスクの意図した動作を特定するための、安価で効果的なソリューションを提供する。
本研究では,複雑な視覚的RL問題を解くための条件付きビデオ拡散モデルを用いて,エキスパートビデオから報酬を学習する新しいフレームワークであるDiffusion Rewardを提案する。
我々の重要な洞察は、専門家の軌道で条件付けされた場合、低い生成多様性が観察されるということである。
拡散逆転は、専門家のような行動の生産的探索を促進する条件エントロピーの負によって形式化される。
本稿では,メタワールドとアドロイトのロボット操作タスク10名に対して,視覚的インプットとスパース報酬が有効であることを示す。
さらに、拡散報酬は未知のタスクを成功かつ効果的に解決することさえ可能であり、ほとんどベースラインメソッドを超えている。
プロジェクトページとコード: https://diffusion-reward.github.io/
関連論文リスト
- On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。
我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-intensiveive Rewards)を提案する。
GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文 参考訳(メタデータ) (2024-10-25T22:11:54Z) - Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning [18.60627708199452]
オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用について検討する。
本稿ではまず,VLMをRLタスクの報酬として適用する際の報酬ミスアライメントの問題を同定する。
ファジィVLM報酬支援RL(FuRL)という軽量微調整法を導入する。
論文 参考訳(メタデータ) (2024-06-02T07:20:08Z) - Diffusion-Reward Adversarial Imitation Learning [33.81857550294019]
シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。
GAIL(Generative Adversarial mimicion Learning)は、対人学習として模倣学習を定式化する。
本稿では拡散モデルとGAILを融合した拡散逆適応学習(DRAIL)を提案する。
論文 参考訳(メタデータ) (2024-05-25T11:53:23Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。