論文の概要: Diffusion for World Modeling: Visual Details Matter in Atari
- arxiv url: http://arxiv.org/abs/2405.12399v2
- Date: Wed, 30 Oct 2024 14:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:24.899825
- Title: Diffusion for World Modeling: Visual Details Matter in Atari
- Title(参考訳): 世界モデリングのための拡散 : アタリにおける視覚的詳細事項
- Authors: Eloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret,
- Abstract要約: 拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。
我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。
DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
- 参考スコア(独自算出の注目度): 22.915802013352465
- License:
- Abstract: World models constitute a promising approach for training reinforcement learning agents in a safe and sample-efficient manner. Recent world models predominantly operate on sequences of discrete latent variables to model environment dynamics. However, this compression into a compact discrete representation may ignore visual details that are important for reinforcement learning. Concurrently, diffusion models have become a dominant approach for image generation, challenging well-established methods modeling discrete latents. Motivated by this paradigm shift, we introduce DIAMOND (DIffusion As a Model Of eNvironment Dreams), a reinforcement learning agent trained in a diffusion world model. We analyze the key design choices that are required to make diffusion suitable for world modeling, and demonstrate how improved visual details can lead to improved agent performance. DIAMOND achieves a mean human normalized score of 1.46 on the competitive Atari 100k benchmark; a new best for agents trained entirely within a world model. We further demonstrate that DIAMOND's diffusion world model can stand alone as an interactive neural game engine by training on static Counter-Strike: Global Offensive gameplay. To foster future research on diffusion for world modeling, we release our code, agents, videos and playable world models at https://diamond-wm.github.io.
- Abstract(参考訳): 世界モデルは、安全でサンプル効率のよい強化学習エージェントを訓練するための有望なアプローチである。
最近の世界モデルは、主に環境力学をモデル化するために、離散潜在変数のシーケンスを操作する。
しかし、このコンパクトな離散表現への圧縮は、強化学習において重要な視覚的詳細を無視する可能性がある。
同時に、拡散モデルは画像生成において支配的なアプローチとなり、個別の潜伏者をモデル化する確立された手法に挑戦している。
このパラダイムシフトを動機として,拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。
我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。
DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
さらに,DIAMONDの拡散世界モデルは,静的カウンタストライク:グローバル攻撃ゲームプレイのトレーニングにより,対話型ニューラルゲームエンジンとして単独で動作可能であることを実証した。
世界モデリングのための拡散に関する将来の研究を促進するため、私たちはコード、エージェント、ビデオ、プレイ可能な世界モデルをhttps://diamond-wm.github.io.comでリリースします。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。
AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。
AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T13:48:31Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。