論文の概要: SAM2Grasp: Resolve Multi-modal Grasping via Prompt-conditioned Temporal Action Prediction
- arxiv url: http://arxiv.org/abs/2512.02609v1
- Date: Tue, 02 Dec 2025 10:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.821174
- Title: SAM2Grasp: Resolve Multi-modal Grasping via Prompt-conditioned Temporal Action Prediction
- Title(参考訳): SAM2Grasp: プロンプト条件付き時間行動予測によるマルチモーダルグラスピングの解消
- Authors: Shengkai Wu, Jinrong Yang, Wenqiu Luo, Linfeng Gao, Chaohui Shang, Meiyu Zhi, Mingshan Sun, Fangping Yang, Liangliang Ren, Yong Zhao,
- Abstract要約: ロボットの把握のための模倣学習は、しばしばマルチモーダル問題に悩まされる。
標準的な模倣学習ポリシーは、これらの異なるアクションを単一の無効なアクションに平均化することで失敗する。
SAM2Graspは,タスクを一様かつ迅速な予測問題として再構成する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 7.708279811172532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning for robotic grasping is often plagued by the multimodal problem: when a scene contains multiple valid targets, demonstrations of grasping different objects create conflicting training signals. Standard imitation learning policies fail by averaging these distinct actions into a single, invalid action. In this paper, we introduce SAM2Grasp, a novel framework that resolves this issue by reformulating the task as a uni-modal, prompt-conditioned prediction problem. Our method leverages the frozen SAM2 model to use its powerful visual temporal tracking capability and introduces a lightweight, trainable action head that operates in parallel with its native segmentation head. This design allows for training only the small action head on pre-computed temporal-visual features from SAM2. During inference, an initial prompt, such as a bounding box provided by an upstream object detection model, designates the specific object to be grasped. This prompt conditions the action head to predict a unique, unambiguous grasp trajectory for that object alone. In all subsequent video frames, SAM2's built-in temporal tracking capability automatically maintains stable tracking of the selected object, enabling our model to continuously predict the grasp trajectory from the video stream without further external guidance. This temporal-prompted approach effectively eliminates ambiguity from the visuomotor policy. We demonstrate through extensive experiments that SAM2Grasp achieves state-of-the-art performance in cluttered, multi-object grasping tasks.
- Abstract(参考訳): ロボットの把握のための模倣学習は、しばしばマルチモーダルな問題に悩まされる:シーンが複数の有効なターゲットを含む場合、異なる物体をつかむデモは、矛盾する訓練信号を生成する。
標準的な模倣学習ポリシーは、これらの異なるアクションを単一の無効なアクションに平均化することで失敗する。
本稿では,一様条件の予測問題としてタスクを再構成することで,この問題を解決する新しいフレームワークSAM2Graspを紹介する。
本手法では,凍ったSAM2モデルを用いて,その強力な視覚的時間追跡機能を活用し,ネイティブセグメンテーションヘッドと並行して動作する軽量で訓練可能なアクションヘッドを導入する。
この設計により、SAM2から事前に計算された時間視覚的特徴に基づいて小さなアクションヘッドのみを訓練することができる。
推論中、上流オブジェクト検出モデルによって提供されるバウンディングボックスのような初期プロンプトは、把握すべき特定のオブジェクトを指定する。
このプロンプトにより、アクションヘッドは、そのオブジェクトのみに対するユニークで曖昧なグリップ軌跡を予測できる。
その後のすべてのビデオフレームにおいて、SAM2のビルトイン時間追跡機能は、選択したオブジェクトの安定した追跡を自動的に維持するので、我々のモデルは、外部ガイダンスを伴わずに、ビデオストリームからの把握軌跡を連続的に予測することができる。
この時相的なアプローチは、ビジュモータ政策からあいまいさを効果的に排除する。
我々は, SAM2Grasp を用いて, 乱雑な多目的把握タスクにおいて, 最先端性能を実現する実験を行った。
関連論文リスト
- SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking [58.35852822355312]
Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:11:56Z) - SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention [0.0]
Segment Anything Model (SAM) は画像セグメンテーションにおける異常な性能で注目されている。
カモフラージュされた物体は一般的に背景に溶け込み、静止画では区別が難しい。
これらの課題を克服するために,SAMスパイダーモジュール (SAM-PM) と呼ばれる新しい手法を提案する。
本手法は,SAMのパラメータの1%未満の追加で,時間的一貫性とドメイン固有の専門知識をセグメンテーションネットワークに効果的に組み込む。
論文 参考訳(メタデータ) (2024-06-09T14:33:38Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks [77.84636815364905]
本稿では,種々の時間的マッチングに基づくダウンストリームタスクに対して,マスク付きオートエンコーダ(MAE)ビデオの事前学習を行う。
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。