論文の概要: SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2508.20547v1
- Date: Thu, 28 Aug 2025 08:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.231402
- Title: SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes
- Title(参考訳): SPGrasp:動的シーンにおける時空間プロンプト駆動型グラフ合成
- Authors: Yunpeng Mei, Hongjie Cao, Yinqiu Xia, Wei Xiao, Zhaohan Feng, Gang Wang, Jie Chen,
- Abstract要約: SPGraspは、ビデオストリーム把握推定のためのモデルv2SAMv2を拡張する新しいフレームワークである。
我々のコアはユーザプロンプトをコンテキストと統合し、エンド・ツー・エンドの動的オブジェクトとのリアルタイムインタラクションを可能にします。
継続的なトラッキング下での挑戦的なGraspNet-1Billionデータセットでは、SPGraspはフレーム毎の73.1ミリ秒のレイテンシで92.0%の精度を実現している。
これらの結果から,SPGraspは動的グリップ合成における遅延-相互作用トレードオフを効果的に解消することがわかった。
- 参考スコア(独自算出の注目度): 9.743012211664574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time interactive grasp synthesis for dynamic objects remains challenging as existing methods fail to achieve low-latency inference while maintaining promptability. To bridge this gap, we propose SPGrasp (spatiotemporal prompt-driven dynamic grasp synthesis), a novel framework extending segment anything model v2 (SAMv2) for video stream grasp estimation. Our core innovation integrates user prompts with spatiotemporal context, enabling real-time interaction with end-to-end latency as low as 59 ms while ensuring temporal consistency for dynamic objects. In benchmark evaluations, SPGrasp achieves instance-level grasp accuracies of 90.6% on OCID and 93.8% on Jacquard. On the challenging GraspNet-1Billion dataset under continuous tracking, SPGrasp achieves 92.0% accuracy with 73.1 ms per-frame latency, representing a 58.5% reduction compared to the prior state-of-the-art promptable method RoG-SAM while maintaining competitive accuracy. Real-world experiments involving 13 moving objects demonstrate a 94.8% success rate in interactive grasping scenarios. These results confirm SPGrasp effectively resolves the latency-interactivity trade-off in dynamic grasp synthesis. Code is available at https://github.com/sejmoonwei/SPGrasp.
- Abstract(参考訳): 動的オブジェクトに対するリアルタイムの対話的グリップ合成は、既存の手法が高速性を維持しながら低遅延推論を達成できないため、依然として困難である。
このギャップを埋めるため、ビデオストリームのグリップ推定のためのSPGrasp(spatiotemporal prompt-driven dynamic grasp synthesis, 時相的プロンプト駆動動的グリップ合成)を提案する。
我々の中核的なイノベーションはユーザプロンプトを時空間コンテキストと統合し、動的オブジェクトの時間的一貫性を確保しながら、エンドツーエンドのレイテンシと59ミリ秒のリアルタイムインタラクションを可能にします。
SPGraspはベンチマーク評価において、OCIDでは90.6%、Jacquardでは93.8%のインスタンスレベルの把握精度を達成した。
継続的な追跡下での挑戦的なGraspNet-1Billionデータセットでは、SPGraspはフレーム毎の73.1ミリ秒のレイテンシで92.0%の精度を達成する。
13の移動物体を含む実世界の実験は、対話的な把握シナリオにおいて94.8%の成功率を示している。
これらの結果から,SPGraspは動的グリップ合成における遅延-相互作用トレードオフを効果的に解消することがわかった。
コードはhttps://github.com/sejmoonwei/SPGrasp.comで入手できる。
関連論文リスト
- Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [51.48680261034029]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - Learning with Spike Synchrony in Spiking Neural Networks [3.8506283985103447]
スパイキングニューラルネットワーク(SNN)は、生物学的神経力学を模倣してエネルギー効率の高い計算を約束する。
本稿では,スパイクタイミングではなく神経発射の度合いに基づいてシナプス重みを調整する訓練手法として,スパイク同期依存塑性(SSDP)を導入する。
論文 参考訳(メタデータ) (2025-04-14T04:01:40Z) - Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.88916568947695]
マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文 参考訳(メタデータ) (2024-12-13T06:30:52Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。