論文の概要: XGrasp: Gripper-Aware Grasp Detection with Multi-Gripper Data Generation
- arxiv url: http://arxiv.org/abs/2510.11036v1
- Date: Mon, 13 Oct 2025 06:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.951224
- Title: XGrasp: Gripper-Aware Grasp Detection with Multi-Gripper Data Generation
- Title(参考訳): XGrasp:マルチグリッパーデータ生成によるグリッパー認識グラフ検出
- Authors: Yeonseo Lee, Jungwook Mun, Hyosup Shin, Guebin Hwang, Junhee Nam, Taeyeop Lee, Sungho Jo,
- Abstract要約: XGraspは、リアルタイムグリップアウェアグリップ検出フレームワークである。
複数のグリップパ構成を効率的に扱う。
既存のグリップ認識手法に比べて推論速度が大幅に向上する。
- 参考スコア(独自算出の注目度): 4.53610034877575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most robotic grasping methods are typically designed for single gripper types, which limits their applicability in real-world scenarios requiring diverse end-effectors. We propose XGrasp, a real-time gripper-aware grasp detection framework that efficiently handles multiple gripper configurations. The proposed method addresses data scarcity by systematically augmenting existing datasets with multi-gripper annotations. XGrasp employs a hierarchical two-stage architecture. In the first stage, a Grasp Point Predictor (GPP) identifies optimal locations using global scene information and gripper specifications. In the second stage, an Angle-Width Predictor (AWP) refines the grasp angle and width using local features. Contrastive learning in the AWP module enables zero-shot generalization to unseen grippers by learning fundamental grasping characteristics. The modular framework integrates seamlessly with vision foundation models, providing pathways for future vision-language capabilities. The experimental results demonstrate competitive grasp success rates across various gripper types, while achieving substantial improvements in inference speed compared to existing gripper-aware methods. Project page: https://sites.google.com/view/xgrasp
- Abstract(参考訳): ほとんどのロボットグリップ法は、通常は単一グリップタイプ用に設計されており、多様なエンドエフェクターを必要とする現実のシナリオにおける適用性を制限している。
複数のグリップパ構成を効率的に処理するリアルタイムグリップパ認識型グリップ検出フレームワークであるXGraspを提案する。
提案手法は,既存のデータセットをマルチグリッパーアノテーションで体系的に拡張することで,データの不足に対処する。
XGraspは階層的な2段階アーキテクチャを採用している。
最初の段階では、グローバルシーン情報とグリップ仕様を用いて、GPP(Grasp Point Predictor)が最適な位置を特定する。
第2段階では、アングル幅予測器(AWP)が局所特徴を用いてグリップ角度と幅を洗練する。
AWPモジュールのコントラスト学習は、基本的把握特性を学習することにより、ゼロショットの一般化を可能にする。
モジュラーフレームワークはビジョン基盤モデルとシームレスに統合され、将来のビジョン言語機能のための経路を提供する。
実験により, 従来のグリップ認識法と比較して, 推論速度を著しく向上させつつ, 種々のグリップタイプ間での競争的なグリップ成功率を示すことができた。
プロジェクトページ: https://sites.google.com/view/xgrasp
関連論文リスト
- Multiple Stochastic Prompt Tuning for Few-shot Adaptation under Extreme Domain Shift [14.85375816073596]
クラス毎に複数の学習可能なプロンプトを導入し,分布シフトによる視覚表現の多様なモードをキャプチャする。
これらのプロンプトは学習可能なガウス分布としてモデル化され、プロンプトパラメータ空間の効率的な探索を可能にする。
実験と最先端手法との比較により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-04T13:18:04Z) - MemoryOut: Learning Principal Features via Multimodal Sparse Filtering Network for Semi-supervised Video Anomaly Detection [30.470777079947958]
再構成や予測に基づくビデオ異常検出(VAD)手法は2つの重要な課題に直面している。
強い一般化能力は、しばしば正確な再構築や異常事象の予測をもたらす。
低レベルの外観と動きの手がかりにのみ依存することは、複雑なシーンから異常な出来事における高レベルの意味を識別する能力を制限する。
論文 参考訳(メタデータ) (2025-06-03T07:14:57Z) - COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time Adaptation [3.8212877227467548]
近年の視覚言語モデル(VLM)は、新しい領域へのテスト時間適応において大きな課題に直面している。
マルチグラニュラー・クロスモーダルなセマンティックキャッシングによる適応性を向上させる,堅牢なテスト時間適応フレームワークであるCOSMICを提案する。
我々のフレームワークは、Dual Semantics Graph(DSG)とClique Guided Hyper-class(CGH)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-03-30T10:34:45Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - MAP: A Model-agnostic Pretraining Framework for Click-through Rate
Prediction [39.48740397029264]
本稿では,多分野分類データに特徴的破損と回復を適用したMAP(Model-Agnostic Pretraining)フレームワークを提案する。
マスク付き特徴予測(RFD)と代替特徴検出(RFD)の2つの実用的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-08-03T12:55:55Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Model-free Grasping with Multi-Suction Cup Grippers for Robotic Bin
Picking [63.15595970667581]
複数の吸引カップを有する吸引グリップパのグリップポーズのモデルフリー予測法を提案する。
本手法はグリッパーの設計に非依存であり,グリッパー固有のトレーニングデータを必要としない。
論文 参考訳(メタデータ) (2023-07-31T08:33:23Z) - Multi-Granularity Hand Action Detection [58.88274905101276]
FHA-Kitchensデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリがアノテートされている。
このデータセットは2,377のビデオクリップと30,047フレームで構成され、約200kのバウンディングボックスと880のアクションカテゴリが注釈付けされている。
MG-HAD (End-to-End Multi-Granularity Hand Action Detection) を提案する。
論文 参考訳(メタデータ) (2023-06-19T11:21:59Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Holistically-Attracted Wireframe Parsing: From Supervised to
Self-Supervised Learning [112.54086514317021]
本稿では,線分とジャンクションを用いた幾何解析のためのホロスティック適応型ワイヤフレーム解析法を提案する。
提案したHAWPは、エンド・ツー・フォームの4Dラベルによって強化された3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-10-24T06:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。