論文の概要: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- arxiv url: http://arxiv.org/abs/2510.10602v1
- Date: Sun, 12 Oct 2025 13:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.025419
- Title: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- Title(参考訳): SpikeGrasp: ステレオスパイクストリームからの6-DoF Grasp Pose検出ベンチマーク
- Authors: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang,
- Abstract要約: ほとんどのロボットの把握システムは、センサーデータを明示的な3Dポイントの雲に変換することに依存しており、これは生物学的知性には見つからない計算ステップである。
生体振動子経路を模倣するフレームワークであるSpikeGraspを導入し、立体スパイクカメラから生の非同期イベントを処理する。
我々のモデルは、これらのステレオスパイクストリームを融合させ、高レベルの視覚処理に類似した繰り返しスパイクニューラルネットワークを使用して、点雲を再構築することなく、把握仮説を反復的に洗練する。
- 参考スコア(独自算出の注目度): 57.84331423686738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
- Abstract(参考訳): ほとんどのロボットの把握システムは、センサーデータを明示的な3Dポイントの雲に変換することに依存しており、これは生物学的知性には見つからない計算ステップである。
本稿では,6-DoFグリップ検出のための基本的,神経誘発のパラダイムについて検討する。
生体視覚経路を模倣するフレームワークであるSpikeGraspを導入し、立体スパイクカメラから生の非同期イベントを処理する。
我々のモデルは、これらのステレオスパイクストリームを融合させ、高レベルの視覚処理に類似した繰り返しスパイクニューラルネットワークを使用して、点雲を再構築することなく、把握仮説を反復的に洗練する。
このアプローチを検証するため、我々は大規模な総合ベンチマークデータセットを構築した。
実験によると、SpikeGraspは、特に散らかった、テクスチャのないシーンにおいて、従来のポイントクラウドベースのベースラインを超えており、顕著なデータ効率を示している。
このエンドツーエンドの神経インスパイアされたアプローチの生存性を確立することで、SpikeGraspは、特に動的対象に対して自然界で見られる流体と効率的な操作が可能な将来のシステムへの道を開く。
関連論文リスト
- SpikeStereoNet: A Brain-Inspired Framework for Stereo Depth Estimation from Spike Streams [70.9610707466343]
バイオインスパイクカメラは、マイクロ秒レベルの解像度で非同期イベントを出力し、代替のセンシングモードを提供する。
既存の手法には、スパイクデータに適した特別なステレオアルゴリズムとベンチマークが欠けている。
本稿では,脳にインスパイアされたフレームワークであるSpikeStereoNetを提案する。
論文 参考訳(メタデータ) (2025-05-26T04:14:34Z) - Finding Visual Saliency in Continuous Spike Stream [23.591309376586835]
本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。
本稿では,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformerフレームワークを提案する。
我々のフレームワークは、スパイクストリームにおける視覚的サリエンシの強調とキャプチャにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-10T15:15:35Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - StarNet: Style-Aware 3D Point Cloud Generation [82.30389817015877]
StarNetは、マッピングネットワークを使用して高忠実度および3Dポイントクラウドを再構築し、生成することができる。
我々のフレームワークは、クラウドの再構築と生成タスクにおいて、様々なメトリクスで同等の最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2023-03-28T08:21:44Z) - Highly Efficient 3D Human Pose Tracking from Events with Spiking Spatiotemporal Transformer [23.15179173446486]
イベントのみに基づく3次元ポーズトラッキングのための,最初のスパーススパイキングニューラルネットワーク(SNN)フレームワークを紹介する。
提案手法では,スパースデータを高密度なフォーマットに変換したり,追加のイメージを組み込む必要がなくなり,入力イベントの本質的にの空間性を完全に活用することが可能になる。
実証実験では、既存の最先端(SOTA)ANN方式よりも、19.1%のFLOPと3.6%のコストエネルギーしか必要とせず、我々のアプローチの優位性を実証した。
論文 参考訳(メタデータ) (2023-03-16T22:56:12Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。