論文の概要: SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation
- arxiv url: http://arxiv.org/abs/2602.16863v1
- Date: Wed, 18 Feb 2026 20:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.398915
- Title: SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation
- Title(参考訳): SimToolReal: ゼロショットデクサラスツール操作のためのオブジェクト中心ポリシー
- Authors: Kushal Kedia, Tyler Ga Wei Lum, Jeannette Bohg, C. Karen Liu,
- Abstract要約: 我々は、ツール操作のためのsim-to-real RLポリシーの一般化に向けて、SimToolRealを提案する。
1つのオブジェクトとタスクに焦点をあてるのではなく、シミュレーションにおいて様々なツールのようなオブジェクトプリミティブを手続き的に生成する。
我々は,SimToolRealが,特定の対象オブジェクトやタスクに対して訓練された専門的RLポリシーのパフォーマンスを37%向上させながら,事前および固定グラフ法を37%向上させることを示す。
- 参考スコア(独自算出の注目度): 23.560816279987538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to manipulate tools significantly expands the set of tasks a robot can perform. Yet, tool manipulation represents a challenging class of dexterity, requiring grasping thin objects, in-hand object rotations, and forceful interactions. Since collecting teleoperation data for these behaviors is challenging, sim-to-real reinforcement learning (RL) is a promising alternative. However, prior approaches typically require substantial engineering effort to model objects and tune reward functions for each task. In this work, we propose SimToolReal, taking a step towards generalizing sim-to-real RL policies for tool manipulation. Instead of focusing on a single object and task, we procedurally generate a large variety of tool-like object primitives in simulation and train a single RL policy with the universal goal of manipulating each object to random goal poses. This approach enables SimToolReal to perform general dexterous tool manipulation at test-time without any object or task-specific training. We demonstrate that SimToolReal outperforms prior retargeting and fixed-grasp methods by 37% while matching the performance of specialist RL policies trained on specific target objects and tasks. Finally, we show that SimToolReal generalizes across a diverse set of everyday tools, achieving strong zero-shot performance over 120 real-world rollouts spanning 24 tasks, 12 object instances, and 6 tool categories.
- Abstract(参考訳): ツールを操作する能力は、ロボットが実行可能なタスクセットを大幅に拡張します。
しかし、ツール操作は、細い物体をつかむこと、手動の物体を回転させること、力強い相互作用を必要とする、挑戦的な器用さのクラスを表している。
これらの行動に対する遠隔操作データの収集は困難であるため、Sim-to-real reinforcement learning (RL) は有望な代替手段である。
しかし、従来のアプローチでは、通常、オブジェクトをモデル化し、各タスクに対して報酬関数をチューニングするためにかなりのエンジニアリング作業を必要とします。
本研究では,ツール操作のためのSim-to-real RLポリシーの一般化に向けて,SimToolRealを提案する。
1つのオブジェクトとタスクに焦点を合わせるのではなく、シミュレーションにおいて多種多様なツールライクなオブジェクトプリミティブを生成し、ランダムな目標ポーズに対して各オブジェクトを操作するという普遍的な目標で、単一のRLポリシーを訓練する。
このアプローチにより、SimToolRealは、オブジェクトやタスク固有のトレーニングなしで、テスト時に一般的なデクスタラスなツール操作を実行できます。
我々は、SimToolRealが、特定のターゲットオブジェクトやタスクで訓練された専門的RLポリシーのパフォーマンスを37%向上させながら、事前再ターゲティングおよび固定グラフメソッドの性能を37%向上させることを示した。
最後に、SimToolRealは、24のタスク、12のオブジェクトインスタンス、および6つのツールカテゴリにまたがる120の現実世界のロールアウトに対して、強力なゼロショットパフォーマンスを達成することで、さまざまな日常ツールセットを一般化していることを示す。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Adaptive Inverse Kinematics Framework for Learning Variable-Length Tool Manipulation in Robotics [0.0]
従来のロボットはキネマティクスの知識が限られており、事前にプログラムされたタスクに限られている。
本稿では,ロボットの逆運動学解法の性能向上のための先駆的なフレームワークを提案する。
我々のモデルは、異なる長さの2つの異なるツールを使用する場合、ほぼ区別不可能な性能を達成する。
論文 参考訳(メタデータ) (2025-10-30T14:44:24Z) - Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - Learning Generalizable Tool-use Skills through Trajectory Generation [13.879860388944214]
4つの異なる変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。
モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。
トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2023-09-29T21:32:42Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。