論文の概要: JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.19698v1
- Date: Mon, 26 May 2025 08:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.297636
- Title: JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning
- Title(参考訳): JEDI: モデルベース強化学習におけるエージェント・ヒューマン性能非対称性を緩和する潜在終端拡散
- Authors: Jing Yu Lim, Zarif Ikram, Samson Yu, Haozhe Ma, Tze-Yun Leong, Dianbo Liu,
- Abstract要約: モデルベース強化学習(MBRL)の最近の進歩は、Atari100kベンチマークで超人的レベルの性能を実現している。
MBRLエージェントは、他のタスクでは大幅にパフォーマンスが低下しているにもかかわらず、いくつかのタスクで人間を劇的に上回り、前者は集計基準を膨らませた。
本稿では, 自己整合性(自己整合性, 自己整合性, 自己整合性(自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性,
- 参考スコア(独自算出の注目度): 4.079361316237972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in model-based reinforcement learning (MBRL) have achieved super-human level performance on the Atari100k benchmark, driven by reinforcement learning agents trained on powerful diffusion world models. However, we identify that the current aggregates mask a major performance asymmetry: MBRL agents dramatically outperform humans in some tasks despite drastically underperforming in others, with the former inflating the aggregate metrics. This is especially pronounced in pixel-based agents trained with diffusion world models. In this work, we address the pronounced asymmetry observed in pixel-based agents as an initial attempt to reverse the worrying upward trend observed in them. We address the problematic aggregates by delineating all tasks as Agent-Optimal or Human-Optimal and advocate for equal importance on metrics from both sets. Next, we hypothesize this pronounced asymmetry is due to the lack of temporally-structured latent space trained with the World Model objective in pixel-based methods. Lastly, to address this issue, we propose Joint Embedding DIffusion (JEDI), a novel latent diffusion world model trained end-to-end with the self-consistency objective. JEDI outperforms SOTA models in human-optimal tasks while staying competitive across the Atari100k benchmark, and runs 3 times faster with 43% lower memory than the latest pixel-based diffusion baseline. Overall, our work rethinks what it truly means to cross human-level performance in Atari100k.
- Abstract(参考訳): モデルベース強化学習(MBRL)の最近の進歩は、強力な拡散世界モデルで訓練された強化学習エージェントによって駆動されるAtari100kベンチマークにおいて、超人的レベルの性能を実現している。
MBRLエージェントは、他のタスクでは著しくパフォーマンスが劣り、前者はアグリゲーション指標を膨らませているにもかかわらず、人間よりも劇的に優れています。
これは拡散世界モデルで訓練されたピクセルベースのエージェントで特に顕著である。
本研究では, 画素ベースエージェントで観測される非対称性を, それらが観測する上昇傾向を逆転させる最初の試みとして取り上げる。
我々は,全てのタスクをエージェント・最適あるいはヒューマン・最適と表現し,両セットのメトリクスに等しい重要性を主張することによって,問題の集合に対処する。
次に、この発音非対称性は、画素ベースの手法でワールドモデルで訓練された時間構造ラテント空間の欠如によるものであると仮定する。
最後に, この課題に対処するために, 自己整合性目標を用いてエンドツーエンドに学習した新しい潜伏拡散世界モデルであるジョイント・エンベディング拡散(JEDI)を提案する。
JEDIは、Atari100kベンチマークの競争力を維持しながら、人間の最適タスクにおいてSOTAモデルより優れており、最新のピクセルベースの拡散ベースラインよりも43%低いメモリで3倍高速で動作する。
私たちの研究は全体として、Atari100kで人間レベルのパフォーマンスを横断することの意味を再考しています。
関連論文リスト
- Improving Transformer World Models for Data-Efficient RL [5.920669613621277]
本稿では, Craftax-classicベンチマークにおいて, アートパフォーマンスの新たな状態を実現するためのモデルベースRLへのアプローチを提案する。
提案アルゴリズムは,1M環境ステップのみで67.4%の報酬を達成し,53.2%のDreamerV3を著しく上回り,初めて65.0%の人的パフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-02-03T18:25:17Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。