論文の概要: SABER: A Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation
- arxiv url: http://arxiv.org/abs/2605.09613v1
- Date: Sun, 10 May 2026 15:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.332632
- Title: SABER: A Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation
- Title(参考訳): SABER: 実世界のVLA適応のためのスケーラブルなアクションベースの身体的データセット
- Authors: Narsimha Menga, Parikshit Sakurikar, Amirreza Rouhi, Satya Sai Reddy, Anirudh Govil, Sri Harsha Chittajallu, Rajat Aggarwal, Anoop Namboodiri, Sashi Reddi,
- Abstract要約: SABERは、100時間以上の店内での自然な捕獲から構築された、高忠実な小売ロボティクスアクションデータセットである。
3つのアクション表現ストリームにわたる44.8Kのトレーニングサンプルを含んでいる。
10の小売業での平均成功率は29.3%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robotic deployment in real-world environments depends on rich, domain-specific action data as much as on strong model architecture. General-purpose robot foundation models show modest performance in complex unseen tasks such as manipulation in a retail domain when applied out of the box. The root cause is a data gap: retail environments are structurally absent from general robot pretraining distributions, and the path to filling that gap through teleoperation is prohibitively expensive, logistically constrained, and difficult to scale. We introduce SABER, a high-fidelity retail robotics action dataset built from over 100 hours of natural in-store capture across multiple real grocery environments. Egocentric footage from head-mounted cameras records fine-grained hand activity at the point of interaction, while exocentric 360-degree scene footage from DreamVu's ALIA camera simultaneously observes all actors and activities across the entire space. This combination yields a uniquely complete picture of human retail behavior: dexterous hand activity, whole-body motion, and scene dynamics, all captured without staging, scripting, or teleoperation overhead. The SABER corpus contains 44.8K training samples across three action representation streams: 25K latent action sequences via LAPA-style encoding, 18.6K dexterous hand-pose trajectories retargeted to robot joint space, and 1.2K whole-body synchronized motion sequences retargeted to a humanoid embodiment. When applied to GR00T N1.6 via a shared-backbone multi-task post-training recipe, SABER yields a mean success rate of 29.3% across ten retail manipulation tasks -- more than 2.19x over fine-tuning baselines (13.4%). SABER demonstrates that the path to capable retail robots runs through better data, which can be collected today, at scale, without a robot in the loop. The dataset and code are available at https://dreamvu.ai/saber
- Abstract(参考訳): 実環境におけるロボットの配置は、強力なモデルアーキテクチャと同様に、リッチでドメイン固有のアクションデータに依存する。
汎用ロボットファウンデーションモデルは、箱から差し出すと、小売ドメインでの操作のような複雑な未確認タスクにおいて、控えめなパフォーマンスを示す。
主な原因はデータギャップであり、小売業環境は一般的なロボットの事前訓練ディストリビューションから構造的に欠落しており、遠隔操作によるギャップを埋める道は違法に高価であり、論理的に制約され、拡張が困難である。
SABERは、複数の実店舗環境にまたがる100時間以上の自然の店内捕獲から構築された、高忠実な小売ロボティクスアクションデータセットである。
ヘッドマウントカメラのエゴセントリックな映像は、インタラクションの時点で細かな手の動きを記録し、一方ドリームヴォーのALIAカメラの360度映像は、空間全体のアクターとアクティビティを同時に観察する。
この組み合わせは、手の動き、全身の動き、シーンのダイナミクスなど、人間の小売行動の独特な完全なイメージを生み出し、すべてステージング、スクリプティング、遠隔操作のオーバーヘッドなしにキャプチャされる。
SABERコーパスは、3つのアクション表現ストリームにまたがる44.8Kのトレーニングサンプルを含む:LAPAスタイルのエンコーディングによる25Kの潜伏アクションシーケンス、ロボット関節空間に再ターゲティングされた18.6Kのデキスタラスハンドプレーストラジェクトリ、ヒューマノイドのエンボディメントに再ターゲティングされた1.2Kの全体同期モーションシーケンス。
GR00T N1.6に共有バックボーンのマルチタスクポストトレーニングレシピで適用すると、SABERは10つの小売操作タスクの平均成功率は29.3%であり、微調整ベースラインの2.19倍以上(13.4%)である。
SABERは、有能な小売ロボットへの道筋がより優れたデータを通っていることを実証している。
データセットとコードはhttps://dreamvu.ai/saber.comで公開されている。
関連論文リスト
- UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos [65.2981273885678]
実際のロボット遠隔操作データの収集コストのため、デクサラスな操作は依然として困難である。
我々は、ロボット中心の大規模データセットと視覚言語アクション(VLA)ポリシーを結合したロボット基盤スイートであるUniDexを紹介する。
UniDex-Dataset、UniDex-VLA、UniDex-Capは、ユニバーサルデキスタラス操作のためのスケーラブルな基盤スイートを提供する。
論文 参考訳(メタデータ) (2026-03-23T17:49:12Z) - Morphology-Consistent Humanoid Interaction through Robot-Centric Video Synthesis [25.249184346335557]
Dream2Actは、生成ビデオによるゼロショットインタラクションを可能にするロボット中心のフレームワークである。
Dream2Actは、ロボットネイティブ空間内で厳密に動作し、エラーを回避し、タスク固有のポリシートレーニングを取り除く。
論文 参考訳(メタデータ) (2026-03-20T07:27:09Z) - EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild [37.43820830488286]
JALAは,協調型潜在行動学習のための事前学習フレームワークである。
We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000時間) mixing lab and the-the-wild footage。
実験により、JALAは制御されたシナリオと制約のないシナリオの両方でより現実的な手の動きを生成することが示された。
論文 参考訳(メタデータ) (2026-02-25T09:46:42Z) - RoboPaint: From Human Demonstration to Any Robot and Any View [9.083647729839688]
本研究では,人間による実演をロボットが実行可能な環境特化学習データに変換するためのリアルタイムデータ収集とデータ編集パイプラインを提案する。
そこで本研究では,10種類のオブジェクト操作タスクに対して,デキスハンドトラジェクトリの再ターゲットが84%の成功率を達成することを示す。
複雑なデクサラス操作のために,パフォーマンス損失を最小限に抑えた,スケーラブルで費用対効果の高い遠隔操作の代替手段を提供する。
論文 参考訳(メタデータ) (2026-02-05T05:45:12Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。