論文の概要: Learning Interactive World Model for Object-Centric Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.02225v1
- Date: Tue, 04 Nov 2025 03:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.796086
- Title: Learning Interactive World Model for Object-Centric Reinforcement Learning
- Title(参考訳): オブジェクト中心強化学習のための対話型世界モデル学習
- Authors: Fan Feng, Phillip Lippe, Sara Magliacane,
- Abstract要約: 我々は、世界モデル内で、オブジェクトとそれらの相互作用の構造化表現を学習する統一的なフレームワークを導入する。
FIOC-WMは、オブジェクト相互作用のアンタングルおよびモジュラー表現で環境力学をキャプチャする。
FIOC-WMは、シミュレーションされたロボットと組み込みAIベンチマークにおいて、世界モデルベースラインに対するポリシー学習サンプル効率と一般化を改善している。
- 参考スコア(独自算出の注目度): 27.710001478315288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents that understand objects and their interactions can learn policies that are more robust and transferable. However, most object-centric RL methods factor state by individual objects while leaving interactions implicit. We introduce the Factored Interactive Object-Centric World Model (FIOC-WM), a unified framework that learns structured representations of both objects and their interactions within a world model. FIOC-WM captures environment dynamics with disentangled and modular representations of object interactions, improving sample efficiency and generalization for policy learning. Concretely, FIOC-WM first learns object-centric latents and an interaction structure directly from pixels, leveraging pre-trained vision encoders. The learned world model then decomposes tasks into composable interaction primitives, and a hierarchical policy is trained on top: a high level selects the type and order of interactions, while a low level executes them. On simulated robotic and embodied-AI benchmarks, FIOC-WM improves policy-learning sample efficiency and generalization over world-model baselines, indicating that explicit, modular interaction learning is crucial for robust control.
- Abstract(参考訳): オブジェクトとその相互作用を理解するエージェントは、より堅牢で転送可能なポリシーを学ぶことができる。
しかしながら、ほとんどのオブジェクト中心のRLメソッドは、相互作用を暗黙的に残しながら、個々のオブジェクトによって状態を決定する。
本稿では,Facted Interactive Object-Centric World Model (FIOC-WM)を紹介する。
FIOC-WMは、オブジェクト相互作用のアンタングルおよびモジュラー表現で環境力学をキャプチャし、サンプル効率を改善し、ポリシー学習の一般化を行う。
具体的には、FIOC-WMはまず、事前学習された視覚エンコーダを利用して、物体中心の潜伏剤と相互作用構造を直接ピクセルから学習する。
学習された世界モデルはタスクを構成可能な相互作用プリミティブに分解し、階層的なポリシーをトップにトレーニングする。
FIOC-WMは、ロボットと組み込みAIのベンチマークで、世界モデルベースラインに対するポリシー学習のサンプル効率と一般化を改善し、明示的なモジュラー相互作用学習が堅牢な制御に不可欠であることを示唆している。
関連論文リスト
- Object-Centric World Models Meet Monte Carlo Tree Search [49.12393425510251]
本稿では,オブジェクトレベルの表現のパワーを利用して動的環境をモデル化する,新しい強化学習(RL)アルゴリズムであるObjectZeroを紹介する。
本手法では,複数のオブジェクト間の複雑な相互作用を捉えるために,グラフニューラルネットワーク(GNN)を用いる。
多様なインタラクティブなオブジェクトで複雑な設定でアルゴリズムを訓練し、オブジェクトのダイナミクスを効果的に学習し、予測する能力を実証した。
論文 参考訳(メタデータ) (2026-01-10T15:59:17Z) - From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.47317196099907]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (2025-12-21T17:28:42Z) - Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi-turn Interaction [53.745458605360675]
効率的な相互作用とアクティブ推論(WMAct)による世界モデル内在化を探求する。
WMActは、モデルを構造化推論から解放し、モデルがその実行を通じて思考を直接形作ることを可能にする。
ソコバン, 迷路, タクシーの実験から, WMActは一つのターンでタスクを解決できる効果的な世界モデル推論を導出することを示した。
論文 参考訳(メタデータ) (2025-11-28T18:59:47Z) - Object-Centric World Models for Causality-Aware Reinforcement Learning [13.063093054280946]
カルーサリティ対応強化学習(ASTICA)を用いたEmph Transformer Imaginationを提案する。
オブジェクト中心のトランスフォーマーが世界モデルおよび因果対応ポリシーおよびバリューネットワークとして機能する統合フレームワーク。
オブジェクトリッチベンチマークの実験では、STICAはサンプル効率と最終性能の両方において、最先端のエージェントよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-11-18T08:53:09Z) - When Object-Centric World Models Meet Policy Learning: From Pixels to Policies, and Where It Breaks [24.669692812050645]
我々は、ピクセルから直接オブジェクトレベルのラテントを学習する、完全に教師なし、不整合なオブジェクト中心の世界モデルを導入する。
DLPWMは、複数のアウト・オブ・ディストリビューション(OOD)視覚変化に対する堅牢性を含む、強い再構成と予測性能を達成する。
その結果,物体中心の知覚は頑健な視覚モデルを支援するが,安定した制御を実現するには潜伏ドリフトを緩和する必要があることが示唆された。
論文 参考訳(メタデータ) (2025-11-08T21:09:44Z) - AXIOM: Learning to Play Games in Minutes with Expanding Object-Centric Models [41.429595107023125]
AXIOMは、オブジェクト中心のダイナミクスとインタラクションに関する、最小限だが表現力に富んだコアプライドのセットを統合する、新しいアーキテクチャである。
これはベイズ的アプローチの通常のデータ効率と解釈可能性と、通常DRLに付随する全タスクの一般化を組み合わせている。
AXIOMは、DRLに比べて少数のパラメータを持ち、グラデーションベースの最適化の計算コストなしで、わずか10,000のインタラクションステップで様々なゲームをマスターする。
論文 参考訳(メタデータ) (2025-05-30T16:46:20Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Inter-environmental world modeling for continuous and compositional dynamics [7.01176359680407]
環境全体にわたってシミュレートする継続的潜在アクション表現を学習する、教師なしのフレームワークであるLie Actionを紹介した。
WLAはビデオフレームのみを用いてトレーニングが可能であり、アクションラベルが最小でも無ければ、新しいアクションセットを持つ新しい環境に迅速に適応できることを実証する。
論文 参考訳(メタデータ) (2025-03-13T00:02:54Z) - InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions [27.225777494300775]
このフレームワークは、単一のポリシーで、何時間も不完全なMoCapデータからしっかりと学習することができる。
実験の結果,InterMimicは複数のHOIデータセットにまたがって,現実的で多様なインタラクションを生成できることがわかった。
論文 参考訳(メタデータ) (2025-02-27T18:59:12Z) - Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。
このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。
提案手法は既存のSSL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-11T06:39:53Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。
本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。
シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。