論文の概要: ESPADA: Execution Speedup via Semantics Aware Demonstration Data Downsampling for Imitation Learning
- arxiv url: http://arxiv.org/abs/2512.07371v2
- Date: Mon, 15 Dec 2025 00:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.125197
- Title: ESPADA: Execution Speedup via Semantics Aware Demonstration Data Downsampling for Imitation Learning
- Title(参考訳): ESPADA: 模倣学習のための実証データダウンサンプリングを意識したセマンティックスによる実行速度アップ
- Authors: Byungju Kim, Jinu Pahk, Chungwoo Lee, Jaejoon Kim, Jangha Lee, Theo Taeyeong Kim, Kyuhwan Shim, Jun Ki Lee, Byoung-Tak Zhang,
- Abstract要約: ESPADAは3Dグリップ・オブジェクト関係を持つVLM-LLMパイプラインを使用して、デモをセグメント化するセマンティックなフレームワークである。
1つの注釈付きエピソードからフルデータセットにスケールするために、ESPADAはDynamic Time Warpingを通じてセグメントラベルを伝搬する。
ESPADAは成功率を維持しながら約2倍のスピードアップを実現し、人間のデモと効率的なロボット制御のギャップを狭める。
- 参考スコア(独自算出の注目度): 18.435889278351297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavior-cloning based visuomotor policies enable precise manipulation but often inherit the slow, cautious tempo of human demonstrations, limiting practical deployment. However, prior studies on acceleration methods mainly rely on statistical or heuristic cues that ignore task semantics and can fail across diverse manipulation settings. We present ESPADA, a semantic and spatially aware framework that segments demonstrations using a VLM-LLM pipeline with 3D gripper-object relations, enabling aggressive downsampling only in non-critical segments while preserving precision-critical phases, without requiring extra data or architectural modifications, or any form of retraining. To scale from a single annotated episode to the full dataset, ESPADA propagates segment labels via Dynamic Time Warping (DTW) on dynamics-only features. Across both simulation and real-world experiments with ACT and DP baselines, ESPADA achieves approximately a 2x speed-up while maintaining success rates, narrowing the gap between human demonstrations and efficient robot control.
- Abstract(参考訳): 行動閉鎖に基づくビジュモータポリシーは、正確な操作を可能にするが、しばしば人間のデモンストレーションの遅くて慎重なテンポを継承し、実践的な展開を制限する。
しかし、アクセラレーション手法に関する先行研究は、主にタスクのセマンティクスを無視し、様々な操作設定で失敗する統計的あるいはヒューリスティックな方法に依存している。
ESPADAは,3次元グリップオブジェクト関係を持つVLM-LLMパイプラインを用いて実演をセグメント化するセマンティックで空間的に意識したフレームワークである。
ひとつの注釈付きエピソードから完全なデータセットにスケールするために、ESPADAは、動的時間ウォーピング(DTW)を通じて、ダイナミックスのみの機能に関するセグメントラベルを伝搬する。
ESPADAはACTとDPのベースラインによるシミュレーションと実世界の実験の両方で、成功率を維持しながら約2倍のスピードアップを実現し、人間のデモと効率的なロボット制御のギャップを狭める。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文 参考訳(メタデータ) (2025-11-13T17:24:37Z) - Obstacle Avoidance using Dynamic Movement Primitives and Reinforcement Learning [36.09105994195904]
本研究は, 1つの人工的な実験からスムーズで, ほぼ最適な衝突のない3次元カルト軌道を高速に生成する手法を提案する。
デモは動的運動プリミティブ(DMP)として符号化され、ポリシーベースの強化学習を用いて反復的に再構成される。
この手法はシミュレーションと実ロボット実験で検証され、計算と実行時間の点でRTT-Connectベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-10T10:51:42Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Delving into Dynamic Scene Cue-Consistency for Robust 3D Multi-Object Tracking [16.366398265001422]
3D多目的追跡は、自動運転分野において重要かつ困難な課題である。
本稿では,この原理を実現するために動的シーンCue-Consistency Tracker(DSC-Track)を提案する。
論文 参考訳(メタデータ) (2025-08-15T08:48:13Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting [90.47748423913369]
最先端のモーション予測モデルは、手動で注釈を付けたり、非常に後処理されたトラジェクトリを備えた、大規模なキュレートされたデータセットに依存している。
PWTはシンプルでスケーラブルな代替手段で、市販の3D検出器とトラッキングから自動生成される、未処理で多様な軌道を使用する。
標準ベンチマーク、特に低データのレシエーション、クロスドメイン、エンドツーエンド、マルチクラスの設定において、強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-09T13:48:15Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。