Fugu-MT 論文翻訳(概要): Diffusion Reward: Learning Rewards via Conditional Video Diffusion

論文の概要: Diffusion Reward: Learning Rewards via Conditional Video Diffusion

arxiv url: http://arxiv.org/abs/2312.14134v2
Date: Mon, 18 Mar 2024 04:08:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 02:32:43.024935
Title: Diffusion Reward: Learning Rewards via Conditional Video Diffusion
Title（参考訳）: 拡散逆流:条件付きビデオ拡散による逆流の学習
Authors: Tao Huang, Guangqi Jiang, Yanjie Ze, Huazhe Xu,
Abstract要約: Diffusion Rewardは、複雑な視覚的RL問題を解決するための条件付きビデオ拡散モデルを通じて、エキスパートビデオから報酬を学ぶフレームワークである。我々の重要な洞察は、専門家の軌道で条件付けされた場合、低い生成多様性が観察されるということである。本稿では,メタワールドとアドロイトのロボット操作タスク10名に対して,視覚的インプットとスパース報酬が有効であることを示す。
参考スコア（独自算出の注目度）: 26.73119637442011
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning rewards from expert videos offers an affordable and effective solution to specify the intended behaviors for reinforcement learning tasks. In this work, we propose Diffusion Reward, a novel framework that learns rewards from expert videos via conditional video diffusion models for solving complex visual RL problems. Our key insight is that lower generative diversity is observed when conditioned on expert trajectories. Diffusion Reward is accordingly formalized by the negative of conditional entropy that encourages productive exploration of expert-like behaviors. We show the efficacy of our method over 10 robotic manipulation tasks from MetaWorld and Adroit with visual input and sparse reward. Moreover, Diffusion Reward could even solve unseen tasks successfully and effectively, largely surpassing baseline methods. Project page and code: https://diffusion-reward.github.io/.
Abstract（参考訳）: エキスパートビデオからの学習報酬は、強化学習タスクの意図した振る舞いを特定するための、安価で効果的なソリューションを提供する。本研究では,複雑な視覚的RL問題を解くための条件付きビデオ拡散モデルを用いて,エキスパートビデオから報酬を学習する新しいフレームワークであるDiffusion Rewardを提案する。我々の重要な洞察は、専門家の軌道で条件付けされた場合、低い生成多様性が観察されるということである。拡散逆転は、専門家のような行動の生産的探索を促進する条件エントロピーの負によって形式化される。本稿では,メタワールドとアドロイトのロボット操作タスク10名に対して,視覚的インプットとスパース報酬が有効であることを示す。さらに、ディフュージョン・リワードは未確認のタスクをうまく効果的に解決し、ベースラインの手法をはるかに超えた。プロジェクトページとコード:https://diffusion-reward.github.io/

関連論文リスト

Diffusion Meets Few-shot Class Incremental Learning [20.418410535842956]
FSCIL(Few-shot class-incremental Learning)は、非常に限られたトレーニングデータのために困難である。本研究では,テキスト・画像拡散モデルを冷凍バックボーンとして利用する新しい手法であるDiffusion-FSCILを提案する。
論文参考訳（メタデータ） (2025-03-30T11:20:08Z)
ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data [56.217490064597506]
広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
論文参考訳（メタデータ） (2025-03-23T21:24:33Z)
On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-intensiveive Rewards)を提案する。 GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文参考訳（メタデータ） (2024-10-25T22:11:54Z)
Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文参考訳（メタデータ） (2024-10-07T18:49:55Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning [18.60627708199452]
オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用について検討する。本稿ではまず,VLMをRLタスクの報酬として適用する際の報酬ミスアライメントの問題を同定する。ファジィVLM報酬支援RL(FuRL)という軽量微調整法を導入する。
論文参考訳（メタデータ） (2024-06-02T07:20:08Z)
Diffusion-Reward Adversarial Imitation Learning [33.81857550294019]
シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。 GAIL(Generative Adversarial mimicion Learning)は、対人学習として模倣学習を定式化する。本稿では拡散モデルとGAILを融合した拡散逆適応学習(DRAIL)を提案する。
論文参考訳（メタデータ） (2024-05-25T11:53:23Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文参考訳（メタデータ） (2023-03-17T10:07:19Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文参考訳（メタデータ） (2021-12-20T18:55:16Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Forgetful Experience Replay in Hierarchical Reinforcement Learning from Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文参考訳（メタデータ） (2020-06-17T15:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。