論文の概要: Zero-Shot Peg Insertion: Identifying Mating Holes and Estimating SE(2) Poses with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.06026v1
- Date: Sat, 08 Mar 2025 02:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:49.229022
- Title: Zero-Shot Peg Insertion: Identifying Mating Holes and Estimating SE(2) Poses with Vision-Language Models
- Title(参考訳): ゼロショットペグ挿入:配向穴の同定とSE(2)ポジショニングモデルによるSE(2)ポジショニング
- Authors: Masaru Yajima, Kei Ota, Asako Kanezaki, Rei Kawakami,
- Abstract要約: 視覚言語モデル(VLM)を用いた新しいゼロショットペグ挿入フレームワークを提案する。
提案手法は90.2%の精度を達成し, 従来未確認のペグホールペアの広い範囲にわたる適切な交尾孔の同定において, 基線を著しく上回っている。
これらの結果は、堅牢で一般化可能なロボット組み立てを可能にするために、VLM駆動のゼロショット推論の可能性を強調している。
- 参考スコア(独自算出の注目度): 12.622746842474726
- License:
- Abstract: Achieving zero-shot peg insertion, where inserting an arbitrary peg into an unseen hole without task-specific training, remains a fundamental challenge in robotics. This task demands a highly generalizable perception system capable of detecting potential holes, selecting the correct mating hole from multiple candidates, estimating its precise pose, and executing insertion despite uncertainties. While learning-based methods have been applied to peg insertion, they often fail to generalize beyond the specific peg-hole pairs encountered during training. Recent advancements in Vision-Language Models (VLMs) offer a promising alternative, leveraging large-scale datasets to enable robust generalization across diverse tasks. Inspired by their success, we introduce a novel zero-shot peg insertion framework that utilizes a VLM to identify mating holes and estimate their poses without prior knowledge of their geometry. Extensive experiments demonstrate that our method achieves 90.2% accuracy, significantly outperforming baselines in identifying the correct mating hole across a wide range of previously unseen peg-hole pairs, including 3D-printed objects, toy puzzles, and industrial connectors. Furthermore, we validate the effectiveness of our approach in a real-world connector insertion task on a backpanel of a PC, where our system successfully detects holes, identifies the correct mating hole, estimates its pose, and completes the insertion with a success rate of 88.3%. These results highlight the potential of VLM-driven zero-shot reasoning for enabling robust and generalizable robotic assembly.
- Abstract(参考訳): タスク固有のトレーニングなしで、任意のペグを見えない穴に挿入するゼロショットペグ挿入を実現することは、ロボティクスの基本的な課題である。
このタスクは、潜在的な穴を検出し、複数の候補から正しい交尾穴を選択し、正確なポーズを推定し、不確実性にもかかわらず挿入を実行することができる高度に一般化可能な認識システムを必要とする。
学習に基づく手法はペグ挿入に応用されているが、訓練中に遭遇したペグホールのペア以上の一般化に失敗することが多い。
VLM(Vision-Language Models)の最近の進歩は、さまざまなタスクをまたいだ堅牢な一般化を実現するために、大規模データセットを活用する、有望な代替手段を提供する。
その成功にインスパイアされたVLMを用いた新しいゼロショットペグ挿入フレームワークを導入する。
広汎な実験により,本手法は90.2%の精度を達成し,3Dプリントオブジェクト,玩具パズル,産業用コネクタなど,これまで目に見えなかったペグホールの広い範囲にわたる適合穴の同定において,精度を著しく上回った。
さらに,PCのバックパネル上での実世界のコネクタ挿入タスクにおけるアプローチの有効性を検証し,ホールの検出に成功し,適切なマッチングホールを特定し,そのポーズを推定し,88.3%の成功率で挿入を完了した。
これらの結果は、堅牢で一般化可能なロボット組み立てを可能にするために、VLM駆動のゼロショット推論の可能性を強調している。
関連論文リスト
- Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - Task-Agnostic Detector for Insertion-Based Backdoor Attacks [53.77294614671166]
本稿では,バックドア検出の先駆的手法であるTABDet(Task-Agnostic Backdoor Detector)を紹介する。
TABDetは、最終層ロジットと効率的なプーリング技術を組み合わせて、3つの著名なNLPタスクをまたいだ統一ロジット表現を可能にする。
TABDetは多様なタスク特化モデルから共同で学習し、従来のタスク特化手法よりも優れた検出効率を示す。
論文 参考訳(メタデータ) (2024-03-25T20:12:02Z) - MOODv2: Masked Image Modeling for Out-of-Distribution Detection [57.17163962383442]
本研究は,様々なOODスコア関数を用いて,個別の事前学習課題について検討する。
当社のフレームワークMOODv2は,14.30%のAUROCをImageNetで95.68%に向上し,CIFAR-10で99.98%を達成した。
論文 参考訳(メタデータ) (2024-01-05T02:57:58Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - Slot Induction via Pre-trained Language Model Probing and Multi-level
Contrastive Learning [62.839109775887025]
トークンレベルのスロットアノテーションの明示的な知識なしでスロット境界を誘導することを目的としたスロットインジェクション(SI)タスク。
PLMから抽出した教師なし意味知識を活用するために、教師なし事前学習言語モデル(PLM)探索とコントラスト学習機構を活用することを提案する。
提案手法は,2つのNLUベンチマークデータセット上でトークンレベルの教師付きモデルとのギャップを埋めることができ,SIタスクに有効であることが示されている。
論文 参考訳(メタデータ) (2023-08-09T05:08:57Z) - Vacant Holes for Unsupervised Detection of the Outliers in Compact
Latent Representation [0.6091702876917279]
現実世界にデプロイされ、運用される機械学習モデルにとって、アウトレーヤの検出は重要なものだ。
本研究では,これらのモデルの特定のタイプに焦点をあてる: 変分オートエンコーダ(VAE)。
論文 参考訳(メタデータ) (2023-06-16T06:21:48Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - In-Hand Pose Estimation and Pin Inspection for Insertion of Through-Hole
Components [2.388455169657983]
本研究の目的は、手動で誤りを把握し、曲がったピンで物体を拒否するシステムを開発することである。
セットアップは自動的に行われ、2つの新しいコントリビューションがある。
ピンの深層学習セグメンテーションを行い、シミュレーションにより検査ポーズを求める。
ネットワークは、テストセットに対して97.3%の精度を示す。
論文 参考訳(メタデータ) (2022-08-02T07:13:24Z) - Towards Individual Grevy's Zebra Identification via Deep 3D Fitting and
Metric Learning [2.004276260443012]
本稿では,1つのパイプラインにおける種検出,3次元モデルフィッティング,およびメートル法学習の深層学習技術を組み合わせて,個体識別を行う。
SMALSTデータセットの小さな研究で、3Dモデルフィッティングの使用は確かに性能に有益であることを示す。
3D装着モデルのバックプロジェクションテクスチャは、2Dバウンディングボックスアプローチと比較して識別精度を48.0%から56.8%に改善した。
論文 参考訳(メタデータ) (2022-06-05T20:44:54Z) - Understanding Multi-Modal Perception Using Behavioral Cloning for
Peg-In-a-Hole Insertion Tasks [21.275342989110978]
本稿では,実世界の組立作業における制御器を学習するために,複数のセンサモードが組み合わさった場合の利点について検討する。
動作クローン法の性能を向上させるために, マルチステップ・アヘッド・ロス関数を提案する。
論文 参考訳(メタデータ) (2020-07-22T19:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。