論文の概要: Inverse Manipulation through Symbolic Planning and Residual Operator Learning
- arxiv url: http://arxiv.org/abs/2606.05248v1
- Date: Wed, 03 Jun 2026 12:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.278831
- Title: Inverse Manipulation through Symbolic Planning and Residual Operator Learning
- Title(参考訳): 記号計画と残差演算子学習による逆操作
- Authors: Yigit Yildirim, Giuseppe Rauso, Riccardo Caccavale, Alberto Finzi,
- Abstract要約: ロボットタスクを反転させるには、象徴的な状態遷移を反転させたり、モーター軌道を巻き戻す以上のことが必要である。
STRIPSライクな演算子から逆スキル目的を導出する逆操作のためのハイブリッドフレームワークを提案する。
以上の結果から,述語由来の残差制御は,近似記号の逆を物理的に基礎を成す逆スキルに変換することができることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverting a robotic task requires more than reversing symbolic state transitions or rewinding motor trajectories. In robot manipulation tasks, symbolic inverse plans often fail to fully restore the effects of forward executions under continuous interaction dynamics. We present a hybrid framework for inverse manipulation that derives inverse-skill objectives from STRIPS-like operators automatically extracted from demonstrations through soft geometric predicates. For each extracted operator, we construct an inverse restoration objective that preserves preconditions, restores delete effects, and negates add effects. A task planner first attempts to satisfy this objective using available action primitives. Unresolved symbolic predicates then induce a residual operator learning problem solved through Reinforcement Learning (RL). We evaluate the framework on the ManiSkill3 PushCube task. For a forward pushing skill, the symbolic inverse performs a coarse pick-and-place restoration, while a residual Soft Actor-Critic policy refines the cube pose to satisfy the remaining inverse predicates. Our results show that predicate-derived residual control can turn an approximate symbolic inverse into a physically grounded inverse skill.
- Abstract(参考訳): ロボットタスクを反転させるには、象徴的な状態遷移を反転させたり、モーター軌道を巻き戻す以上のことが必要である。
ロボット操作タスクにおいて、記号的逆計画はしばしば、連続的な相互作用のダイナミクスの下での前方実行の効果を完全に回復できない。
本稿では,ソフトな幾何学的述語による実演から自動的に抽出されるSTRIPSライクな演算子から,逆スキルの目的を導出する逆操作のためのハイブリッドフレームワークを提案する。
抽出された各演算子に対して、プレコンディションを保存し、削除効果を復元し、追加効果を無効化する逆復元目的を構築する。
タスクプランナーはまず、利用可能なアクションプリミティブを使用して、この目的を満足させようとする。
未解決記号述語は、強化学習(RL)によって解決された残差演算子学習問題を誘導する。
ManiSkill3 PushCubeタスクのフレームワークを評価する。
フォワードプッシュスキルでは、シンボル的逆転が粗いピック・アンド・プレイスを復元する一方、残余のソフトアクター・クリティカルポリシーは、残りの逆述語を満たすために立方体ポーズを洗練する。
以上の結果から,述語由来の残差制御は,近似記号の逆を物理的に基礎を成す逆スキルに変換することができることがわかった。
関連論文リスト
- Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation [91.20850436220267]
Referring-Aware Visuomotor Policy(ReV)について紹介する。
ReVは、人間または高レベルの推論プランナーによって提供されるスパース参照ポイントを組み込む。
これは、専門家のデモンストレーションにターゲットの摂動を適用することでのみ訓練される。
論文 参考訳(メタデータ) (2026-04-07T07:41:11Z) - In-Context Symbolic Regression for Robustness-Improved Kolmogorov-Arnold Networks [3.7163623763519733]
シンボリック回帰は、ブラックボックス予測器を機械学習で検査および検証可能な分析式に置き換えることを目的としている。
Kolmogorov-Arnold Pursuit Networks (KANs) はこの目的に適している。
しかし、実際には記号抽出はボトルネックであり、標準のkan-to-symbolアプローチは各学習エッジ関数に微妙な分離で適合する。
論文 参考訳(メタデータ) (2026-03-16T13:21:26Z) - The Illusion of Latent Generalization: Bi-directionality and the Reversal Curse [7.920832441141614]
逆の呪文は、事実を逆順に回収する自己回帰言語モデルの失敗を記述している。
近年の研究では、双方向監視による目的が逆の呪いを軽減することが示されている。
逆精度は、ソースエンティティを予測対象とするトレーニング信号を必要とすることを示す。
論文 参考訳(メタデータ) (2026-03-13T20:55:43Z) - RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments [0.0]
我々は,低レベルの行動実行から高レベルの空間的推論を分離するフレームワークUnveilerを提案する。
この分離されたアーキテクチャは、パラメータ数と推論時間の観点からより計算的に効率的であることを示す。
シミュレーションでは,97.6%の成功率,90.0%の完全閉塞シナリオを達成し,複雑な操作タスクにおけるオブジェクト中心推論の能力について考察した。
論文 参考訳(メタデータ) (2026-03-03T01:45:53Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Directional Optimization Asymmetry in Transformers: A Synthetic Stress Test [0.15229257192293197]
変換子は理論的には逆不変であり、その関数クラスは右から左への写像よりも左から右への写像を好まない。
LLMの時間的非対称性に関する最近の研究は、実世界のコーパスが独自の時間的矢印を持っていることを示唆している。
方向性の障害は、言語統計学によるものなのか、あるいはアーキテクチャ自体によるものなのか?
論文 参考訳(メタデータ) (2025-11-25T07:03:20Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning [5.482532589225552]
本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。
作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。
提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
論文 参考訳(メタデータ) (2020-01-22T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。