論文の概要: Physically-Grounded Goal Imagination: Physics-Informed Variational Autoencoder for Self-Supervised Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.06745v1
- Date: Mon, 10 Nov 2025 06:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.102093
- Title: Physically-Grounded Goal Imagination: Physics-Informed Variational Autoencoder for Self-Supervised Reinforcement Learning
- Title(参考訳): 自己超越型強化学習のための物理インフォームド変分オートエンコーダ
- Authors: Lan Thi Ha Nguyen, Kien Ton Manh, Anh Do Duc, Nam Pham Hai,
- Abstract要約: 自己指導型目標条件強化学習は、ロボットが人間の監督なしに多様なスキルを自律的に獲得することを可能にする。
RIG(Visual Reinforcement Learning with Imagined Goals)のような既存の手法では、変分オートエンコーダ(VAE)を使用して学習空間の目標を生成するが、学習効率を阻害する物理的に不可解な目標を生成する制限がある。
我々は,新しい拡張物理インフォームド変分オートエンコーダ(拡張p3-VAE)を用いて,物理制約を直接VAEトレーニングプロセスに統合する物理インフォームドRIG(PI-RIG)を提案する。
私たちの重要なイノベーションは、潜伏空間を明示的に分離することです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Self-supervised goal-conditioned reinforcement learning enables robots to autonomously acquire diverse skills without human supervision. However, a central challenge is the goal setting problem: robots must propose feasible and diverse goals that are achievable in their current environment. Existing methods like RIG (Visual Reinforcement Learning with Imagined Goals) use variational autoencoder (VAE) to generate goals in a learned latent space but have the limitation of producing physically implausible goals that hinder learning efficiency. We propose Physics-Informed RIG (PI-RIG), which integrates physical constraints directly into the VAE training process through a novel Enhanced Physics-Informed Variational Autoencoder (Enhanced p3-VAE), enabling the generation of physically consistent and achievable goals. Our key innovation is the explicit separation of the latent space into physics variables governing object dynamics and environmental factors capturing visual appearance, while enforcing physical consistency through differential equation constraints and conservation laws. This enables the generation of physically consistent and achievable goals that respect fundamental physical principles such as object permanence, collision constraints, and dynamic feasibility. Through extensive experiments, we demonstrate that this physics-informed goal generation significantly improves the quality of proposed goals, leading to more effective exploration and better skill acquisition in visual robotic manipulation tasks including reaching, pushing, and pick-and-place scenarios.
- Abstract(参考訳): 自己指導型目標条件強化学習は、ロボットが人間の監督なしに多様なスキルを自律的に獲得することを可能にする。
ロボットは、現在の環境で達成可能な、実現可能で多様な目標を提案しなければならない。
RIG(Visual Reinforcement Learning with Imagined Goals)のような既存の手法では、変分オートエンコーダ(VAE)を使用して学習空間の目標を生成するが、学習効率を阻害する物理的に不可解な目標を生成する制限がある。
我々は,新しい拡張物理インフォームド変分オートエンコーダ (Enhanced Physics-Informed Variational Autoencoder, p3-VAE) を用いて, 物理制約を直接VAEトレーニングプロセスに統合し, 物理的に一貫した, 達成可能な目標の生成を可能にする物理インフォームドRIG (PI-RIG) を提案する。
我々の重要な革新は、潜在空間を、微分方程式の制約や保存則を通じて物理的一貫性を保ちながら、オブジェクトのダイナミクスと視覚的外観を捉える環境要因を規定する物理変数に明示的に分離することである。
これにより、オブジェクトの永続性、衝突の制約、動的実現可能性といった基本的な物理的原則を尊重する、物理的に一貫性があり達成可能な目標の生成が可能になる。
広範にわたる実験を通じて,この物理インフォームドゴール生成は提案した目標の質を大幅に向上させ,より効率的な探索と,到達,プッシュ,ピック・アンド・プレイスシナリオを含む視覚ロボット操作タスクのスキル獲得につながることを実証した。
関連論文リスト
- D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping [66.22412592525369]
本稿では,ガウスのSplat表現を生かした実--sim-to-realエンジンを導入し,実-sim-to-realエンジンについて述べる。
提案エンジンは, 各種物体の形状と質量値のマス識別において, 高精度かつロバストな性能を実現していることを示す。
これらの最適化された質量値は、力覚的なポリシー学習を促進し、オブジェクトの把握において優れた、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-01T15:32:04Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals [15.286299359279509]
Goal Forceを使えば、明示的な力ベクトルと中間ダイナミクスを使って目標を定義することができる。
我々は、合成因果プリミティブのキュレートされたデータセットに基づいて、ビデオ生成モデルを訓練する。
以上の結果から,映像生成を基礎的な物理相互作用で基礎づけることで,暗黙的な神経物理シミュレータとしてモデルが現れる可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-09T15:23:36Z) - Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Corrigibility as a Singular Target: A Vision for Inherently Reliable Foundation Models [0.0]
ファンデーションモデル(FM)は、能力の規模が拡大するにつれ、人的制御の喪失に向けてデフォルトの軌道を駆動する。
提案する「特異ターゲットとしてのコリギビリティ」(CAST)設計のFMは、指定された人間のプリンシパルに誘導、修正、制御の権限を与えるものである。
論文 参考訳(メタデータ) (2025-06-03T16:36:03Z) - Neural Force Field: Few-shot Learning of Generalized Physical Reasoning [10.17290885481923]
大規模なトレーニングにもかかわらず、現在のAIモデルは、同様の一般化を達成するのに依然として苦労している。
NFFは、連続的な明示的な力場における重力、支持、衝突のような基本的な物理的概念を捉えている。
我々の研究は、物理にインスパイアされた表現を学習システムに組み込むことで、人体推論能力と人体推論能力のギャップを埋めることができることを示唆している。
論文 参考訳(メタデータ) (2025-02-13T05:50:13Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - I-CTRL: Imitation to Control Humanoid Robots Through Constrained Reinforcement Learning [8.97654258232601]
有界残留強化学習(I-CTRL)によるヒューマノイドロボットの制御フレームワークの開発
I-CTRLは5つのロボットにまたがるシンプルでユニークな報酬で、動きの模倣に優れています。
本フレームワークでは,大規模動作データセットを管理するための自動優先度スケジューラを導入している。
論文 参考訳(メタデータ) (2024-05-14T16:12:27Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。