Fugu-MT 論文翻訳(概要): ICPRL: Acquiring Physical Intuition from Interactive Control

論文の概要: ICPRL: Acquiring Physical Intuition from Interactive Control

arxiv url: http://arxiv.org/abs/2603.13295v1
Date: Sun, 01 Mar 2026 15:17:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.277002
Title: ICPRL: Acquiring Physical Intuition from Interactive Control
Title（参考訳）: ICPRL:インタラクティブ制御による身体的直感獲得
Authors: Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Shuo Zhang, Zhiming Ding, Bo Zheng,
Abstract要約: ICPRL(In-Context Physical Reinforcement Learning, In-Context Physical Reinforcement Learning, In-Context Physical Reinforcement Learning, ICPRL)は、VLMが物理的直観を習得し、そのポリシーを文脈内で適応することを可能にするフレームワークである。提案手法は,多面的相互作用履歴に基づいて,多面的グループ相対的ポリシー最適化(GRPO)を介して,視覚的な政策モデルを訓練する。これによりエージェントは、過去の試行錯誤シーケンスを条件にすることで、重み更新を必要とせずに戦略を適応することができる。
参考スコア（独自算出の注目度）: 38.098959182766144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: VLMs excel at static perception but falter in interactive reasoning in dynamic physical environments, which demands planning and adaptation to dynamic outcomes. Existing physical reasoning methods often depend on abstract symbolic inputs or lack the ability to learn and adapt from direct, pixel-based visual interaction in novel scenarios. We introduce ICPRL (In-Context Physical Reinforcement Learning), a framework inspired by In-Context Reinforcement Learning (ICRL) that empowers VLMs to acquire physical intuition and adapt their policies in-context. Our approach trains a vision-grounded policy model via multi-turn Group Relative Policy Optimization (GRPO) over diverse multi-episode interaction histories. This enables the agent to adapt strategies by conditioning on past trial-and-error sequences, without requiring any weight updates. This adaptive policy works in concert with a separately trained world model that provides explicit physical reasoning by predicting the results of potential actions. At inference, the policy proposes candidate actions, while the world model predicts outcomes to guide a root-node PUCT search to select the most promising action. Evaluated on the diverse physics-based puzzle-solving tasks in the DeepPHY benchmark, ICPRL demonstrates significant improvements across both its I. policy-only, and II. world-model-augmented stages. Notably, these gains are retained in unseen physical environments, demonstrating that our framework facilitates genuine in-context acquisition of the environment's physical dynamics from interactive experience.
Abstract（参考訳）: VLMは静的知覚において優れるが、動的物理環境における対話的推論において、計画と動的結果への適応を要求される。既存の物理的推論手法は、しばしば抽象的な記号入力に依存するか、あるいは新しいシナリオにおいて直接的、ピクセルベースの視覚的相互作用から学習し適応する能力が欠如している。 ICPRL(In-Context Physical Reinforcement Learning)は,VLMが身体的直観を習得し,その方針を文脈内に適応させる,インコンテクスト強化学習(ICRL)に触発されたフレームワークである。提案手法は,多面的相互作用履歴に基づいて,多面的グループ相対的ポリシー最適化(GRPO)を介して,視覚的な政策モデルを訓練する。これによりエージェントは、過去の試行錯誤シーケンスを条件にすることで、重み更新を必要とせずに戦略を適応することができる。この適応政策は、潜在的な行動の結果を予測することで明確な物理的推論を提供する、個別に訓練された世界モデルと協調して機能する。推測において,この政策は候補行動を提案し,世界モデルはルートノードPUCT探索を誘導し,最も有望な行動を選択する結果を予測する。 ICPRLは、DeepPHYベンチマークの様々な物理ベースのパズル解決タスクを評価し、I. Policy-onlyとIIの両方で大幅に改善されている。 world-model-augmented stage 特に、これらの利得は目に見えない物理的環境に保たれており、我々のフレームワークは、インタラクティブな体験から環境の物理的ダイナミクスを真にコンテキスト内で取得するのに役立つことを実証している。

関連論文リスト

AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation [12.592383721590402]
オンライン適応学習(AdaWorldPolicy)を用いた統合フレームワーク「世界モデル駆動拡散政策」を導入する。私たちの中核となる洞察は、世界モデルは強力な監視信号を提供し、動的環境におけるオンライン適応学習を可能にします。 AdaWorldPolicyは、アウト・オブ・ディストリビューションシナリオへの動的適応能力を備えた最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-02-23T17:12:25Z)
PolicyEvol-Agent: Evolving Policy via Environment Perception and Self-Awareness with Theory of Mind [9.587070290189507]
PolicyEvol-Agentは、他者の意図を体系的に獲得するのが特徴の包括的なフレームワークである。 PolicyEvol-Agentは、さまざまな認知操作を、内的および外的視点とともに、心の理論と統合する。
論文参考訳（メタデータ） (2025-04-20T06:43:23Z)
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents [6.402396836189286]
本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T06:53:00Z)
Free Energy Projective Simulation (FEPS): Active inference with interpretability [40.11095094521714]
FEP(Free Energy Projective Simulation)とAIF(Active Inference)は、多くの成功を収めている。最近の研究は、最新の機械学習技術を取り入れた複雑な環境におけるエージェントの性能向上に重点を置いている。ディープニューラルネットワークを使わずに解釈可能な方法でエージェントをモデル化するための自由エネルギー射影シミュレーション(FEPS)を導入する。
論文参考訳（メタデータ） (2024-11-22T15:01:44Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文参考訳（メタデータ） (2024-05-29T13:36:36Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。 ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。 ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:52:36Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。