論文の概要: SeeTraceAct: Visibility-Aware Latent Planning from Cross-Embodiment Demonstration Videos
- arxiv url: http://arxiv.org/abs/2606.02745v1
- Date: Mon, 01 Jun 2026 18:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.52986
- Title: SeeTraceAct: Visibility-Aware Latent Planning from Cross-Embodiment Demonstration Videos
- Title(参考訳): SeeTraceAct: クロス・エボディメント・デモビデオによる可視性を考慮した潜在計画
- Authors: Jaehyeon Son, Junhyun Kim, Kyle Kam, Jeremiah Coholich, Seok Joon Kim, Jinhoo Kim, Chris Dongjoo Kim, Jaemin Cho, Dieter Fox, Zsolt Kira,
- Abstract要約: 本研究では,視覚言語行動モデル(VLA)について検討する。
SeeTraceActは、将来のエンドエフェクタトレースの可視性を考慮した予測を通じて、正確な空間的接地を促進する。
RoboCasa-DCの実験と、Franka Pandaの腕が人間のデモで条件付けられている実世界のベンチマークは、SeeeTraceActがベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 44.63355306601846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action models (VLAs) are promising general-purpose robot policies, but adapting them to new tasks typically requires costly task-specific teleoperation data. As an alternative, we study one-shot demo-conditioned VLAs, where a robot policy is conditioned on a single demonstration video of an unseen task. We find that existing end-to-end approaches often struggle when successful execution requires precisely localizing small target regions. To address this limitation, we propose SeeTraceAct, a demo-conditioned VLA framework that encourages precise spatial grounding through visibility-aware prediction of future end-effector traces. To enable reproducible evaluation with cross-embodiment demonstrations, we introduce and release RoboCasa-DC, a demo-conditioned extension of RoboCasa with episode-paired humanoid videos. Experiments on RoboCasa-DC and a real-world benchmark, where a Franka Panda arm is conditioned on human demonstrations, show that SeeTraceAct outperforms baselines, achieving the best success rate across all four RoboCasa-DC settings and improving real-world average success by 12.5 percentage points.
- Abstract(参考訳): 視覚言語アクションモデル(VLA)は、汎用ロボットポリシーを約束するが、それらを新しいタスクに適応させるには、通常、タスク固有の遠隔操作データが必要となる。
代替として、ロボットポリシーが未確認タスクの1つのデモビデオで条件付けられているワンショットデモコンディションVLAについて検討する。
実行に成功するためには、小さなターゲット領域を正確にローカライズする必要がある。
この制限に対処するために、将来のエンドエフェクタトレースの可視性を考慮した予測により、正確な空間的接地を促進するデモ条件付きVLAフレームワークであるSeeeTraceActを提案する。
異体間デモによる再現性評価を実現するため,ロボットキャサのデモコンディション拡張であるRoboCasa-DCを,エピソードペア付きヒューマノイドビデオで導入・リリースする。
RoboCasa-DCとFranka Pandaの腕が人間のデモで条件付けされている実世界のベンチマークの実験では、SeeeTraceActはベースラインを上回り、4つのRoboCasa-DC設定で最高の成功率を獲得し、実世界の平均成功率が12.5ポイント向上している。
関連論文リスト
- $τ_0$-WM: A Unified Video-Action World Model for Robotic Manipulation [45.040666672458634]
政策学習,映像予測,行動評価を統合した統合ビデオアクション世界モデルを提案する。
このモデルは、実際のロボット遠隔操作で約27,300ドル(約2万2000円)で訓練されている。
論文 参考訳(メタデータ) (2026-05-31T05:35:36Z) - AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps [7.710034405765985]
AIMは、明示的な空間的インターフェースを通じてこのギャップを橋渡しする意図認識の統一世界行動モデルである。
事前訓練されたビデオ生成モデルに基づいて構築されたAIMは、共有変換器アーキテクチャ内の将来の観測と値マップを共同でモデル化する。
RoboTwin 2.0ベンチマークの実験では、AIMは平均94.0%の成功率に達し、以前の統合された世界行動ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-04-13T07:48:58Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - STORM: Search-Guided Generative World Models for Robotic Manipulation [10.365032830677162]
STORMはロボット操作における時間的推論のためのフレームワークである。
拡散に基づくアクション生成、条件付きビデオ予測、検索ベースの計画を統合する。
ストームは視覚的に計画を立て、解釈可能でフォアサイト駆動の意思決定を可能にする。
論文 参考訳(メタデータ) (2025-12-20T19:40:25Z) - Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。
本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文 参考訳(メタデータ) (2025-12-17T18:35:54Z) - ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver [35.25196177784228]
本稿では,暗黙的な基礎パラダイムを持つ再構成型VLAモデルReconVLAを提案する。
拡散変換器は、モデルの視覚出力に基づいて画像の視線領域を再構成する。
このプロセスにより、VLAモデルはきめ細かい表現を学習し、視覚的注意を正確に割り当てる。
論文 参考訳(メタデータ) (2025-08-14T04:20:19Z) - ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文 参考訳(メタデータ) (2025-06-03T17:00:32Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。