論文の概要: Physics-informed Goal-Conditioned Reinforcement Learning under Hybrid Contact Dynamics
- arxiv url: http://arxiv.org/abs/2605.30503v1
- Date: Thu, 28 May 2026 19:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.195985
- Title: Physics-informed Goal-Conditioned Reinforcement Learning under Hybrid Contact Dynamics
- Title(参考訳): ハイブリッドコンタクトダイナミクスによる物理インフォームドゴール・コンディション強化学習
- Authors: Vittorio Giammarino, Anastasios Manganaris, Ahmed H. Qureshi,
- Abstract要約: 物理インフォームドな帰納バイアスをゴール条件付き価値学習に導入する。
これらの構造特性は、接触リッチな操作に鼻で適用した場合、既存のPi-GCRL法を劣化させる可能性があることを示す。
この結果は,Pi-GCRLをコンタクトリッチな操作に拡張するための基本的なステップを提供する。
- 参考スコア(独自算出の注目度): 14.98755934537906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to reach arbitrary goals from sparse feedback requires agents to infer a rich notion of reachability across state--goal pairs. Goal-conditioned reinforcement learning (GCRL) tackles this challenge by learning policies that generalize across goals, but this generalization becomes increasingly difficult as the underlying dynamics become high-dimensional, hybrid, or contact-dependent. To address this issue, physics-informed GCRL (Pi-GCRL) introduces optimal-control-inspired inductive biases into goal-conditioned value learning. While Pi-GCRL methods have proven effective in navigation and object-free goal-reaching domains, their reliability in contact-rich tasks remains unclear, where contact interactions induce hybrid dynamics, mode-dependent controllability, and nonsmooth value landscapes. In this work, we show that these structural properties can cause existing Pi-GCRL methods to degrade when applied naively to contact-rich manipulation. Motivated by this analysis, we introduce contact-aware and hierarchical formulations that apply physics-informed inductive biases selectively across the manipulation problem. Our results provide a principled step toward extending Pi-GCRL to contact-rich manipulation.
- Abstract(参考訳): スパースフィードバックから任意の目標に到達するためには、エージェントは状態-ゴールペア間の到達可能性という豊富な概念を推論する必要がある。
ゴール条件強化学習(GCRL)は、目標をまたいで一般化する政策を学習することで、この課題に対処するが、基礎となるダイナミクスが高次元、ハイブリッド、コンタクト依存となるにつれて、この一般化はますます困難になる。
この問題に対処するため、物理インフォームドGCRL (Pi-GCRL) はゴール条件付き値学習に最適制御による帰納バイアスを導入している。
Pi-GCRL法はナビゲーションやオブジェクトフリーの目標到達領域において有効であることが証明されているが、接触に富んだタスクにおける信頼性は未だ不明であり、接触相互作用はハイブリッド力学、モード依存制御性、非滑らかな値ランドスケープを誘導する。
本研究では,これらの構造特性が,接触リッチな操作に鼻で適用した場合に既存のPi-GCRL法を劣化させる可能性があることを示す。
この分析により,物理情報を用いた帰納的バイアスを操作問題全体にわたって選択的に適用する接触認識および階層的定式化を導入する。
この結果は,Pi-GCRLをコンタクトリッチな操作に拡張するための基本的なステップを提供する。
関連論文リスト
- Where to Touch, How to Contact: Hierarchical RL-MPC Framework for Geometry-Aware Long-Horizon Dexterous Manipulation [15.309183490293721]
接触リッチな外接操作における重要な課題は、幾何学、運動論的制約、複雑で非滑らかな接触力学を共同で推論する必要があることである。
本稿では,高レベル強化学習(RL)政策が接触意図を予測する階層的なRL--MPCフレームワークを提案する。
我々は、幾何学的一般化されたプッシュやオブジェクト3D再構成を含む、非包括的タスクに関するフレームワークを評価する。
論文 参考訳(メタデータ) (2026-01-16T01:20:15Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning [20.424372965054832]
EmphPhysics-informed (Pi) regularized loss for value learning, derived from the Eikonal partial Differential Equation (PDE)。
トレーニングを安定させるために主に用いられる一般的な勾配のペナルティとは異なり、我々の定式化は連続時間最適制御に基礎を置いており、コスト対ゴ構造に整合する値関数を奨励している。
提案した正規化器は時間差に基づく値学習と広く互換性があり、既存のオフラインGCRLアルゴリズムに統合できる。
論文 参考訳(メタデータ) (2025-09-08T15:08:42Z) - Global Reinforcement Learning: Beyond Linear and Convex Rewards via Submodular Semi-gradient Methods [42.04223902155739]
我々はGlobal RL(GRL)を導入し、報酬は局所的な状態ではなく、トラジェクトリー上でグローバルに定義される。
部分モジュラ最適化からアイデアを活用することで,GRL問題を古典的RL問題列に変換する新しいアルゴリズムスキームを提案する。
論文 参考訳(メタデータ) (2024-07-13T14:45:08Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - COCOI: Contact-aware Online Context Inference for Generalizable
Non-planar Pushing [87.7257446869134]
一般的なコンタクトリッチな操作問題は、ロボット工学における長年の課題である。
深層強化学習は、ロボット操作タスクの解決に大きな可能性を示している。
動的プロパティのコンテキスト埋め込みをオンラインにエンコードする深層RL法であるCOCOIを提案する。
論文 参考訳(メタデータ) (2020-11-23T08:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。