論文の概要: Zero-shot World Models via Search in Memory
- arxiv url: http://arxiv.org/abs/2510.16123v1
- Date: Fri, 17 Oct 2025 18:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.857859
- Title: Zero-shot World Models via Search in Memory
- Title(参考訳): メモリ内探索によるゼロショット世界モデル
- Authors: Federico Malato, Ville Hautamäki,
- Abstract要約: 類似性探索と表現を利用して、トレーニング手順を使わずに世界モデルを近似する。
本研究では, 遅延再構成の品質と, 再構成画像の類似性について検討した。
我々のモデルは、視覚的に異なる環境におけるベースラインに対して、長期水平予測においてより強い性能を示す。
- 参考スコア(独自算出の注目度): 7.15414423703749
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: World Models have vastly permeated the field of Reinforcement Learning. Their ability to model the transition dynamics of an environment have greatly improved sample efficiency in online RL. Among them, the most notorious example is Dreamer, a model that learns to act in a diverse set of image-based environments. In this paper, we leverage similarity search and stochastic representations to approximate a world model without a training procedure. We establish a comparison with PlaNet, a well-established world model of the Dreamer family. We evaluate the models on the quality of latent reconstruction and on the perceived similarity of the reconstructed image, on both next-step and long horizon dynamics prediction. The results of our study demonstrate that a search-based world model is comparable to a training based one in both cases. Notably, our model show stronger performance in long-horizon prediction with respect to the baseline on a range of visually different environments.
- Abstract(参考訳): 世界モデルは強化学習の分野に大きく浸透した。
環境の遷移力学をモデル化する能力は、オンラインRLのサンプル効率を大幅に改善した。
中でも最も悪名高いのがドリーマー(Dreamer)だ。これは多様な画像ベースの環境で行動することを学ぶモデルだ。
本稿では,類似性探索と確率表現を利用して,学習手順を使わずに世界モデルを近似する。
我々は,ドリーマーファミリーの確立した世界モデルであるPlaNetとの比較を確立する。
我々は,次のステップと長い水平線力学予測の両方に基づいて,遅延再構成の品質と,再構成画像の知覚的類似性に関するモデルを評価する。
本研究の結果から,検索に基づく世界モデルは,どちらの場合においても,トレーニングに基づく世界モデルに匹敵することを示した。
特に,我々のモデルは,視覚的に異なる環境におけるベースラインに対して,長期水平予測においてより強い性能を示す。
関連論文リスト
- Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models [37.774994737939394]
我々は動的モデルを用いて、合成データと推論時間検証を用いて世界モデルをブートストラップする。
GPT4o-as-judgeによると、我々の最良のモデルは、最先端の画像編集モデルと性能を競い合っており、実世界のサブセットでは15%のマージンで改善されている。
論文 参考訳(メタデータ) (2025-06-06T11:50:18Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - Learning Local Causal World Models with State Space Models and Attention [1.5498250598583487]
本研究では,SSMが単純な環境のダイナミクスをモデル化し,因果モデルを同時に学習できることを示す。
我々は、SSMの強みに傾倒するさらなる実験の道を開き、因果意識でそれらをさらに強化する。
論文 参考訳(メタデータ) (2025-05-04T11:57:02Z) - EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。
我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z) - FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - Consistency-diversity-realism Pareto fronts of conditional image generative models [22.372033071088424]
我々は、最先端のテキスト・ツー・イメージモデルと画像・アンド・テキスト・ツー・イメージモデルとそのノブを使用して、一貫性の多様性-リアリズムをParetoフロントに描画する。
我々の実験は、リアリズムと一貫性を同時に改善できることを示唆している。
我々の分析は、最良のモデルが存在しず、ダウンストリームアプリケーションによってモデルの選択が決定されるべきであることを示している。
論文 参考訳(メタデータ) (2024-06-14T22:14:11Z) - Diffusion for World Modeling: Visual Details Matter in Atari [22.915802013352465]
拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。
我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。
DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
論文 参考訳(メタデータ) (2024-05-20T22:51:05Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。