論文の概要: A Multi-Level Similarity Approach for Single-View Object Grasping: Matching, Planning, and Fine-Tuning
- arxiv url: http://arxiv.org/abs/2507.11938v1
- Date: Wed, 16 Jul 2025 06:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.24608
- Title: A Multi-Level Similarity Approach for Single-View Object Grasping: Matching, Planning, and Fine-Tuning
- Title(参考訳): 単一視点オブジェクトグラフプにおける複数レベル類似性アプローチ:マッチング,計画,微調整
- Authors: Hao Chen, Takuya Kiyokawa, Zhengtao Hu, Weiwei Wan, Kensuke Harada,
- Abstract要約: 一つの視点から3つの重要なステップを通して、未知の物体をしっかりと把握する手法を提案する。
本稿では, 意味的, 幾何学的, 次元的特徴を統合し, 包括的評価を行う多層類似性マッチングフレームワークを提案する。
さらに,大規模言語モデルの導入,半指向境界ボックスの導入,平面検出に基づく新たなポイントクラウド登録手法の開発などを行い,単一ビュー条件下でのマッチング精度の向上を図る。
- 参考スコア(独自算出の注目度): 17.162675084829242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grasping unknown objects from a single view has remained a challenging topic in robotics due to the uncertainty of partial observation. Recent advances in large-scale models have led to benchmark solutions such as GraspNet-1Billion. However, such learning-based approaches still face a critical limitation in performance robustness for their sensitivity to sensing noise and environmental changes. To address this bottleneck in achieving highly generalized grasping, we abandon the traditional learning framework and introduce a new perspective: similarity matching, where similar known objects are utilized to guide the grasping of unknown target objects. We newly propose a method that robustly achieves unknown-object grasping from a single viewpoint through three key steps: 1) Leverage the visual features of the observed object to perform similarity matching with an existing database containing various object models, identifying potential candidates with high similarity; 2) Use the candidate models with pre-existing grasping knowledge to plan imitative grasps for the unknown target object; 3) Optimize the grasp quality through a local fine-tuning process. To address the uncertainty caused by partial and noisy observation, we propose a multi-level similarity matching framework that integrates semantic, geometric, and dimensional features for comprehensive evaluation. Especially, we introduce a novel point cloud geometric descriptor, the C-FPFH descriptor, which facilitates accurate similarity assessment between partial point clouds of observed objects and complete point clouds of database models. In addition, we incorporate the use of large language models, introduce the semi-oriented bounding box, and develop a novel point cloud registration approach based on plane detection to enhance matching accuracy under single-view conditions. Videos are available at https://youtu.be/qQDIELMhQmk.
- Abstract(参考訳): 単一の視点から未知の物体をグラッピングすることは、部分的な観察の不確実性のため、ロボティクスにおいて難しいトピックであり続けている。
大規模モデルの最近の進歩は、GraspNet-1Billionのようなベンチマークソリューションにつながっている。
しかし、このような学習に基づくアプローチは、ノイズや環境の変化を感知する感度に対して、パフォーマンスの堅牢性に重大な制限に直面している。
このボトルネックに対処するため、従来の学習フレームワークを放棄し、類似性マッチング(類似性マッチング)という新たな視点を導入する。
一つの視点から3つの重要なステップを通して、未知の物体をしっかりと把握する手法を新たに提案する。
1) 観測対象の視覚的特徴を活用して、様々なオブジェクトモデルを含む既存のデータベースと類似性をマッチングし、高い類似性を有する候補を特定する。
2 未知対象物に対する擬似的把握を計画するために、既存の知識を把握した候補モデルを用いる。
3)局所的な微調整プロセスにより把握品質を最適化する。
部分的・雑音的な観測によって生じる不確実性に対処するために, 意味的, 幾何学的, 次元的特徴を統合し, 総合的な評価を行う多段階類似性マッチングフレームワークを提案する。
特に,観測対象の部分点雲とデータベースモデルの完全点雲との正確な類似性評価を容易にする新しい点雲幾何記述子,C-FPFH記述子を導入する。
さらに,大規模言語モデルの導入,半指向境界ボックスの導入,平面検出に基づく新たなポイントクラウド登録手法の開発などを行い,単一ビュー条件下でのマッチング精度の向上を図る。
ビデオはhttps://youtu.be/qQDIELMhQmk.comで公開されている。
関連論文リスト
- PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。
追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。
本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-01-23T18:18:15Z) - A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。