論文の概要: Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly
- arxiv url: http://arxiv.org/abs/2604.20712v1
- Date: Wed, 22 Apr 2026 15:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.210073
- Title: Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly
- Title(参考訳): Peg-out-of-hoole Disassembly を用いた視覚触覚Peg-in-Holeアセンブリ学習
- Authors: Yongqiang Zhao, Xuyang Zhang, Zhuo Chen, Matteo Leonetti, Emmanouil Spyrakos-Papastavridis, Shan Luo,
- Abstract要約: 本稿では,PiHタスクのための新しい視覚触覚スキル学習フレームワークを提案する。
PooHは、正確なアライメントなしに既存の摩擦を乗り越える必要があるため、本質的に簡単である。
我々のフレームワークは、目に見えないオブジェクトで87.5%、見えないオブジェクトで77.1%の平均的な成功率を達成する。
- 参考スコア(独自算出の注目度): 19.347034161573735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peg-in-hole (PiH) assembly is a fundamental yet challenging robotic manipulation task. While reinforcement learning (RL) has shown promise in tackling such tasks, it requires extensive exploration. In this paper, we propose a novel visual-tactile skill learning framework for the PiH task that leverages its inverse task, i.e., peg-out-of-hole (PooH) disassembly, to facilitate PiH learning. Compared to PiH, PooH is inherently easier as it only needs to overcome existing friction without precise alignment, making data collection more efficient. To this end, we formulate both PooH and PiH as Partially Observable Markov Decision Processes (POMDPs) in a unified environment with shared visual-tactile observation space. A visual-tactile PooH policy is first trained; its trajectories, containing kinematic, visual and tactile information, are temporally reversed and action-randomized to provide expert data for PiH. In the policy learning, visual sensing facilitates the peg-hole approach, while tactile measurements compensate for peg-hole misalignment. Experiments across diverse peg-hole geometries show that the visual-tactile policy attains 6.4% lower contact forces than its single-modality counterparts, and that our framework achieves average success rates of 87.5% on seen objects and 77.1% on unseen objects, outperforming direct RL methods that train PiH policies from scratch by 18.1% in success rate. Demos, code, and datasets are available at https://sites.google.com/view/pooh2pih.
- Abstract(参考訳): Peg-in-hole (PiH) は基本的なロボット操作作業である。
強化学習(RL)はそのようなタスクに対処する上で有望であるが、広範な探索が必要である。
本稿では,その逆タスク,すなわちPop-out-of-hole (PooH) の分解を利用して,PiH学習を容易にする,新しい視覚触覚スキル学習フレームワークを提案する。
PiHと比較して、PooHは本質的に簡単で、正確なアライメントなしに既存の摩擦を克服するだけで、データ収集をより効率的にすることができる。
この目的のために、我々はPooHとPiHの両方を、共有視覚触覚観測空間を持つ統一環境において、部分観測可能なマルコフ決定過程(POMDP)として定式化する。
視覚的触覚のPooHポリシーは、まず訓練され、その軌跡は、運動的、視覚的、触覚的な情報を含み、時間的に逆転し、アクションランダム化され、PiHのエキスパートデータを提供する。
政策学習では、視覚感覚はペグホールのアプローチを促進するが、触覚測定はペグホールのミスアライメントを補う。
種々のペグ・ホール・ジオメトリーを用いた実験により, 視覚触覚政策は単一モダリティよりも6.4%低い接触力を実現し, 平均成功率87.5%, 未確認オブジェクト77.1%を達成し, PiHポリシーをゼロから18.1%までトレーニングする直接RL法よりも優れていた。
デモ、コード、データセットはhttps://sites.google.com/view/pooh2pih.comから入手できる。
関連論文リスト
- Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues [69.24378760740171]
本稿では,乱れたシーンにおけるロバスト性の欠如に対する解決策として,ビジュモータ・ポリシー・プールについて考察する。
AFA(Attentive Feature Aggregation)は、タスク関連視覚的キューに自然に出席することを学ぶ軽量でトレーニング可能なプール機構である。
以上の結果から,視覚情報を無視することは,堅牢で汎用的な視覚運動ポリシーの展開に向けた重要なステップであることが示唆された。
論文 参考訳(メタデータ) (2025-11-13T19:31:05Z) - Multi-Keypoint Affordance Representation for Functional Dexterous Grasping [26.961157077703756]
本稿では,機能的デキスタラスグルーピングのためのマルチキーポイントアプライアンス表現を提案する。
本手法は,機能的接触点の局在化により,タスク駆動型グリップ構成を符号化する。
提案手法は,手頃な局所化精度,一貫性の把握,未知のツールやタスクへの一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-02-27T11:54:53Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Pi-DUAL: Using Privileged Information to Distinguish Clean from Noisy Labels [47.85182773875054]
クリーンなラベルを識別するために特権情報(PI)を利用するアーキテクチャであるPi-DUALを導入する。
Pi-DUALは、主要なPIベンチマークで大幅なパフォーマンス向上を実現し、新しい最先端のテストセットの精度を確立する。
Pi-DUALは、PIを用いた様々な現実シナリオにおけるラベルノイズの影響を軽減するための、シンプルでスケーラブルで実践的なアプローチである。
論文 参考訳(メタデータ) (2023-10-10T13:08:50Z) - Effective Whole-body Pose Estimation with Two-stages Distillation [52.92064408970796]
全体ポーズ推定は、画像内の人体、手、顔、足のキーポイントをローカライズする。
textbfWhole-body textbfPose 推定器の2段階ポーズ textbfDistillation を提案し,その有効性と効率性について検討した。
論文 参考訳(メタデータ) (2023-07-29T03:49:28Z) - Towards Effective Visual Representations for Partial-Label Learning [49.91355691337053]
部分ラベル学習(PLL)では、トレーニングインスタンス毎に、未知の真のラベルを含むあいまいなラベルのセットのみがアクセス可能である。
真のラベルがなければ、正の点は本質的にノイズの多い擬似ラベルで予測され、負の点は大きなバッチや運動量エンコーダを必要とすることが多い。
本稿では,表現学習の改善のための重要なスコープを示す,最先端のコントラスト手法PiCO[PiPi24]を再考する。
論文 参考訳(メタデータ) (2023-05-10T12:01:11Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - Early Stopping for Deep Image Prior [3.7141449478571307]
本稿では,複数の視覚タスクおよびDIP変種間でのニアピーク性能を継続的に検出する効率的なES戦略を提案する。
連続的なDIP再構成の分散を簡易に測定した結果, ES法は既存手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-11T21:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。