論文の概要: FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation
- arxiv url: http://arxiv.org/abs/2502.11744v2
- Date: Fri, 21 Feb 2025 05:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:50:02.454544
- Title: FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation
- Title(参考訳): FUNCTO:ツール操作のための関数中心のワンショット模倣学習
- Authors: Chao Tang, Anxing Xiao, Yuhong Deng, Tianrun Hu, Wenlong Dong, Hanbo Zhang, David Hsu, Hong Zhang,
- Abstract要約: FUNCTOは3次元関数キーポイント表現と関数中心の対応を確立するOSIL方式である。
モジュール型OSIL法とエンド・ツー・エンドの動作クローン法に対するFUNCTOの評価を行った。
- 参考スコア(独自算出の注目度): 18.953496415412335
- License:
- Abstract: Learning tool use from a single human demonstration video offers a highly intuitive and efficient approach to robot teaching. While humans can effortlessly generalize a demonstrated tool manipulation skill to diverse tools that support the same function (e.g., pouring with a mug versus a teapot), current one-shot imitation learning (OSIL) methods struggle to achieve this. A key challenge lies in establishing functional correspondences between demonstration and test tools, considering significant geometric variations among tools with the same function (i.e., intra-function variations). To address this challenge, we propose FUNCTO (Function-Centric OSIL for Tool Manipulation), an OSIL method that establishes function-centric correspondences with a 3D functional keypoint representation, enabling robots to generalize tool manipulation skills from a single human demonstration video to novel tools with the same function despite significant intra-function variations. With this formulation, we factorize FUNCTO into three stages: (1) functional keypoint extraction, (2) function-centric correspondence establishment, and (3) functional keypoint-based action planning. We evaluate FUNCTO against exiting modular OSIL methods and end-to-end behavioral cloning methods through real-robot experiments on diverse tool manipulation tasks. The results demonstrate the superiority of FUNCTO when generalizing to novel tools with intra-function geometric variations. More details are available at https://sites.google.com/view/functo.
- Abstract(参考訳): 人間のデモビデオから学ぶツールは、ロボットの教えに対して非常に直感的で効率的なアプローチを提供する。
人間は、同じ機能(例えば、マグカップとティーポットを注ぐ)をサポートする様々なツールに、実証されたツール操作スキルを強制的に一般化することができるが、現在のワンショット模倣学習(OSIL)手法は、これを達成するのに苦労している。
重要な課題は、デモツールとテストツールの間の機能対応を確立することである。
この課題に対処するために,FUNCTO(Function-Centric OSIL for Tool Manipulation)を提案する。FUNCTOは,機能中心の3次元キーポイント表現との対応性を確立するOSIL手法であり,ロボットは,機能内変動が著しいにもかかわらず,単一の人間のデモビデオから,機能操作スキルを同じ機能を持つ新しいツールに一般化することができる。
この定式化により、FUNCTOは、(1)機能的キーポイント抽出、(2)機能中心対応確立、(3)機能的キーポイントベースアクションプランニングの3段階に分けられる。
我々は,多様なツール操作タスクにおける実ロボット実験を通じて,モジュール型OSILメソッドの終了とエンド・ツー・エンドの動作クローン手法に対するFUNCTOの評価を行った。
その結果,機能内幾何変化を持つ新しいツールに一般化する際のFUNCTOの優位性を示した。
詳細はhttps://sites.google.com/view/functo.comで確認できる。
関連論文リスト
- ToolGen: Unified Tool Retrieval and Calling via Generation [34.34787641393914]
ToolGenは、ツール知識を大きな言語モデルのパラメータに直接統合するパラダイムシフトです。
ToolGenは、ツール検索と自律タスク補完の両方において、優れた結果が得られることを示す。
ToolGenは、より汎用的で効率的で自律的なAIシステムを実現する。
論文 参考訳(メタデータ) (2024-10-04T13:52:32Z) - Learning Granularity-Aware Affordances from Human-Object Interaction for Tool-Based Functional Grasping in Dexterous Robotics [27.124273762587848]
オブジェクトの付加的な特徴は、エージェントとオブジェクト間の機能的な相互作用のブリッジとして機能する。
機能的空き地を特定するための粒度対応型空き地特徴抽出法を提案する。
また,手動物体間相互作用領域において,高活性な粗粒度機能を用いて,握り動作の予測を行う。
これは完全なロボット機能把握フレームワークGAAF-Dexを形成する。
論文 参考訳(メタデータ) (2024-06-30T07:42:57Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Learning Generalizable Tool-use Skills through Trajectory Generation [13.879860388944214]
4つの異なる変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。
モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。
トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2023-09-29T21:32:42Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Learning Generalizable Tool Use with Non-rigid Grasp-pose Registration [29.998917158604694]
本稿では,ツール使用行動の強化学習を可能にする新しい手法を提案する。
私たちのアプローチは、ひとつのデモだけで新しいカテゴリのツールの操作を学ぶためのスケーラブルな方法を提供します。
学習したポリシーは複雑なツールの使用タスクを解決し、テスト時に見えないツールに一般化する。
論文 参考訳(メタデータ) (2023-07-31T08:49:11Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z) - Tool Learning with Foundation Models [158.8640687353623]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。
その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-04-17T15:16:10Z) - How to select and use tools? : Active Perception of Target Objects Using
Multimodal Deep Learning [9.677391628613025]
我々は,ロボットが物体と相互作用する間,マルチモーダル感覚運動子データを用いた能動的知覚に焦点を当てた。
物体の特徴を認識することを学ぶディープニューラルネットワーク(DNN)モデルを構築した。
また, 画像, 力, 触覚データのコントリビューションについても検討し, 多様なマルチモーダル情報を学習することで, ツール使用に対する認知度が向上することを示す。
論文 参考訳(メタデータ) (2021-06-04T12:49:30Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。