論文の概要: Spatially Prompted Visual Trajectory Prediction for Egocentric Manipulation
- arxiv url: http://arxiv.org/abs/2605.20085v1
- Date: Tue, 19 May 2026 16:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.530622
- Title: Spatially Prompted Visual Trajectory Prediction for Egocentric Manipulation
- Title(参考訳): エゴセントリックマニピュレーションのための空間的にプロンプトされた視覚軌跡予測
- Authors: Yifan Li, Xinyu Zhou, Yunhao Ge, Yu Kong,
- Abstract要約: 空間的にプロンプトされた視覚軌跡予測(SP-VTP)の最初の形式化について述べる。
この新しい設定は、初期空間的プロンプトを利用してタスク目標を定義し、エゴセントリックストリームから将来のエンドエフェクタ軌道を予測するモデルを実行する。
本研究では,1フレームの視覚的および座標的空間的プロンプトのためのタスクエンコーダと,現在の視覚的および歴史的コンテキストのための観測エンコーダと,将来のエンドエフェクタ動作のための軌道生成器を組み合わせたSPOTを提案する。
- 参考スコア(独自算出の注目度): 19.295853768161606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation is often specified through language instructions or task identifiers, yet cluttered environments with similar objects are better handled by spatially indicating what to move and where to place it. Addressing the vision-centric challenge of object and goal specification, we present, to the best of our knowledge, the first formalization of Spatially Prompted Visual Trajectory Prediction (SP-VTP). This novel setting utilizes initial spatial prompts (like bounding boxes or points) to define task objectives, tasking the model with forecasting future end-effector trajectories from egocentric streams. To study this problem, we collect and annotate EgoSPT, a dataset of egocentric spatially prompted manipulation trajectories with first-frame object and target grounding annotations and recovered 3D end-effector motion. SP-VTP is challenging because the task specification is static, while the scene configuration evolves over time. To solve this problem, we propose SPOT(Spatially Prompted Object-Target Policy), which combines a task encoder for first-frame visual and coordinate spatial prompts, an observation encoder for current visual and history context, and a trajectory generator for future end-effector motion. Experiments under strict scene-level splits show that SPOT improves cross-scene trajectory prediction over non-prompted or single-source prompted baselines. Together, EgoSPT and SPOT establish a new spatial prompting problem SP-VTP, as a simple and scalable task condition for egocentric manipulation.
- Abstract(参考訳): ロボット操作は、しばしば言語命令やタスク識別子によって特定されるが、類似したオブジェクトを持つ散らかった環境は、移動すべき場所と配置する場所を空間的に示すことにより、より良く扱われる。
対象と目標仕様の視覚中心的な課題に対処するために,我々は,空間的にプロンプトされた視覚的軌道予測(SP-VTP)の最初の形式化を,私たちの知る限りで提示する。
この新しい設定は、初期空間的なプロンプト(バウンディングボックスやポイントなど)を使用してタスクの目的を定義し、エゴセントリックストリームから将来のエンドエフェクタ軌道を予測する。
本研究では,エゴセントリックな空間的に誘導される操作軌跡のデータセットであるEgoSPTを1フレームオブジェクトと目標接地アノテーションを用いて収集・注釈し,3次元エンドエフェクタ動作を復元する。
SP-VTPはタスク仕様が静的であるのに対して、シーン構成は時間とともに進化するので、難しい。
この問題を解決するため,SPOT(Spatially Prompted Object-Target Policy)を提案し,第1フレームの視覚的および座標空間的プロンプトのためのタスクエンコーダ,現在の視覚的および歴史的コンテキストのための観測エンコーダ,将来のエンドエフェクタ動作のための軌道生成器を提案する。
厳密なシーンレベルの分割による実験は、SPOTが非プロンプトまたは単一ソースのベースラインよりもクロスシーンの軌道予測を改善することを示している。
EgoSPTとSPOTは共に、エゴセントリックな操作のためのシンプルでスケーラブルなタスク条件として、空間的プロンプト問題SP-VTPを確立する。
関連論文リスト
- Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective [16.541717037293278]
物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
論文 参考訳(メタデータ) (2025-11-14T16:56:01Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文 参考訳(メタデータ) (2023-11-09T22:55:10Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Spatial Entropy Regularization for Vision Transformers [71.44392961125807]
視覚変換器(VT)は、訓練が監督されたときに自然に出現しない意味的セグメンテーション構造を含むことができる。
本稿では,情報エントロピーの空間的定式化に基づくVT正規化手法を提案する。
提案手法は,異なるトレーニングシナリオ,データセット,下流タスク,VTアーキテクチャに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-06-09T17:34:39Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。