論文の概要: MrCoM: A Meta-Regularized World-Model Generalizing Across Multi-Scenarios
- arxiv url: http://arxiv.org/abs/2511.06252v1
- Date: Sun, 09 Nov 2025 07:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.840648
- Title: MrCoM: A Meta-Regularized World-Model Generalizing Across Multi-Scenarios
- Title(参考訳): MrCoM: マルチシナリオを対象とするメタレギュラー化したワールドモデル
- Authors: Xuantang Xiong, Ni Mu, Runpeng Xie, Senhao Yang, Yaqing Wang, Lexiang Wang, Yao Luan, Siyuan Li, Shuang Xu, Yiqin Yang, Bo Xu,
- Abstract要約: 私たちはMrCoM(Meta-Regularized Contextual World-Model)という,さまざまなシナリオにまたがる一般化が可能な統一世界モデルを構築します。
アルゴリズムの一般化能力は様々なシナリオで評価し,従来の最先端手法よりもはるかに優れた性能を示した。
- 参考スコア(独自算出の注目度): 25.07812895067576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) is a crucial approach to enhance the generalization capabilities and improve the sample efficiency of RL algorithms. However, current MBRL methods focus primarily on building world models for single tasks and rarely address generalization across different scenarios. Building on the insight that dynamics within the same simulation engine share inherent properties, we attempt to construct a unified world model capable of generalizing across different scenarios, named Meta-Regularized Contextual World-Model (MrCoM). This method first decomposes the latent state space into various components based on the dynamic characteristics, thereby enhancing the accuracy of world-model prediction. Further, MrCoM adopts meta-state regularization to extract unified representation of scenario-relevant information, and meta-value regularization to align world-model optimization with policy learning across diverse scenario objectives. We theoretically analyze the generalization error upper bound of MrCoM in multi-scenario settings. We systematically evaluate our algorithm's generalization ability across diverse scenarios, demonstrating significantly better performance than previous state-of-the-art methods.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、一般化能力を高め、RLアルゴリズムのサンプル効率を向上させるための重要なアプローチである。
しかし、現在のMBRL法は主に単一タスクのための世界モデルの構築に重点を置いており、異なるシナリオをまたいだ一般化にはほとんど取り組んでいない。
同じシミュレーションエンジン内のダイナミクスが固有の特性を共有するという知見に基づいて、メタ規則化コンテキスト世界モデル(MrCoM)と呼ばれる様々なシナリオを一般化可能な統一世界モデルの構築を試みる。
この方法はまず, 動的特性に基づいて潜在状態空間を様々な成分に分解し, ワールドモデル予測の精度を高める。
さらに、MrCoMは、メタ状態正規化を採用し、シナリオ関連情報の統一表現を抽出し、メタ値正規化を行い、世界モデル最適化と様々なシナリオ目標にわたるポリシー学習を整合させる。
理論的には、MrCoMの一般化誤差上限をマルチシナリオ設定で解析する。
我々は,従来の最先端手法よりもはるかに優れた性能を示し,多様なシナリオにまたがるアルゴリズムの一般化能力を体系的に評価した。
関連論文リスト
- Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - From Generalization Analysis to Optimization Designs for State Space Models [14.932318540666547]
状態空間モデル (SSM) は時系列解析の基礎モデルである。
一般化結果に基づく学習アルゴリズムの改良を提案する。
論文 参考訳(メタデータ) (2024-05-04T13:58:03Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。
具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。
理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文 参考訳(メタデータ) (2024-04-12T09:22:24Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。