論文の概要: Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2601.22647v1
- Date: Fri, 30 Jan 2026 07:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.287668
- Title: Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments
- Title(参考訳): 動的環境における身体的エージェントの世界モデルの試験・時間混合
- Authors: Jinwoo Jang, Minjong Yoo, Sihyung Yoon, Honguk Woo,
- Abstract要約: Test-time Mixture of World Models (TMoW) は、目に見えない領域や進化しない領域への適応性を高めるフレームワークである。
TMoWは、関数が固定されている従来のMoEとは異なり、テスト時に世界モデル上でルーティング機能を更新する。
我々は、VirtualHome、ALFWorld、RLBenchベンチマーク上でTMoWを評価し、ゼロショット適応と少数ショット拡張シナリオの両方で強い性能を示す。
- 参考スコア(独自算出の注目度): 29.514831254621438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model (LM)-based embodied agents are increasingly deployed in real-world settings. Yet, their adaptability remains limited in dynamic environments, where constructing accurate and flexible world models is crucial for effective reasoning and decision-making. To address this challenge, we extend the Mixture-of-Experts (MoE) paradigm to embodied agents. While conventional MoE architectures modularize knowledge into expert components with pre-trained routing, they remain rigid once deployed, making them less effective for adapting to unseen domains in dynamic environments. We therefore propose Test-time Mixture of World Models (TMoW), a framework that enhances adaptability to unseen and evolving domains. TMoW updates its routing function over world models at test time, unlike conventional MoE where the function remains fixed, enabling agents to recombine existing models and integrate new ones for continual adaptation. It achieves this through (i) multi-granular prototype-based routing, which adapts mixtures across object- to scene-level similarities, (ii) test-time refinement that aligns unseen domain features with prototypes during inference, and (iii) distilled mixture-based augmentation, which efficiently constructs new models from few-shot data and existing prototypes. We evaluate TMoW on VirtualHome, ALFWorld, and RLBench benchmarks, demonstrating strong performance in both zero-shot adaptation and few-shot expansion scenarios, and showing that it enables embodied agents to operate effectively in dynamic environments.
- Abstract(参考訳): 言語モデル(LM)ベースのエンボディエージェントは、現実の環境でますます多くデプロイされている。
しかし、それらの適応性は、正確なフレキシブルな世界モデルの構築が効果的な推論と意思決定に不可欠である動的な環境において制限されている。
この課題に対処するため、我々はMixture-of-Experts(MoE)パラダイムをエンボディエージェントに拡張する。
従来のMoEアーキテクチャは、知識をトレーニング済みのルーティングでエキスパートコンポーネントにモジュール化するが、一度デプロイされても厳密なままであり、動的環境における見当たらないドメインへの適応には効果が低い。
そこで我々は、未確認領域や進化領域への適応性を高めるフレームワークであるTMoW(Test-time Mixture of World Models)を提案する。
TMoWは、関数が固定されたままの従来のMoEとは異なり、テスト時に世界のモデルにルーティング機能を更新し、エージェントは既存のモデルを再結合し、継続的な適応のために新しいモデルを統合することができる。
これが達成されるのです
(i)オブジェクトからシーンレベルの類似性に混在する多粒性プロトタイプベースのルーティング。
二 推論中、未確認領域の特徴と試作品とを整合させる試験時間改善
三 蒸留混合法により、少数ショットデータと既存プロトタイプから効率的に新しいモデルを構築する。
我々は、VirtualHome、ALFWorld、RLBenchベンチマーク上でTMoWを評価し、ゼロショット適応と少数ショット展開シナリオの両方において強力な性能を示し、エンボディエージェントが動的環境で効果的に動作可能であることを示す。
関連論文リスト
- Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems [38.4555621948915]
Prismatic World Model (PRISM-WM) は複雑なハイブリッド力学を構成可能なプリミティブに分解するように設計されている。
PRISM-WMは系力学におけるシャープモード遷移を正確にモデル化することでロールアウトドリフトを著しく低減する。
論文 参考訳(メタデータ) (2025-12-09T09:40:34Z) - World Model Implanting for Test-time Adaptation of Embodied Agents [29.514831254621438]
具体的AIにおいて、永続的な課題は、エージェントが広範なデータ収集や再トレーニングを必要とせずに、新しいドメインへの堅牢な適応を可能にすることである。
本稿では、大規模言語モデルの推論能力と、独立に学習されたドメイン固有世界モデルを組み合わせた世界モデル埋め込みフレームワーク(WorMI)を提案する。
我々は、VirtualHomeとALFWorldのベンチマークでWorMIを評価し、いくつかのLSMベースのアプローチと比較して、ゼロショットと少数ショットのパフォーマンスが優れていることを示した。
論文 参考訳(メタデータ) (2025-09-04T07:32:16Z) - Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [54.77404771454794]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T09:11:38Z) - Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。
本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。
TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文 参考訳(メタデータ) (2025-03-06T13:18:37Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.35361897941898]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。