論文の概要: DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data
- arxiv url: http://arxiv.org/abs/2503.19516v1
- Date: Tue, 25 Mar 2025 10:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:53:41.208081
- Title: DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data
- Title(参考訳): DataPlatter: 最小コストデータによるロボットマニピュレーション一般化の促進
- Authors: Liming Zheng, Feng Yan, Fanfan Liu, Chengjian Feng, Yufeng Zhong, Yiyang Huang, Lin Ma,
- Abstract要約: 我々は、訓練軌跡を異なるタスクステージに分離するフレームワークであるDataPlatter法を紹介した。
本研究では,ロボット操作におけるパフォーマンス触媒として,SRPデータの追加によるサブタスク特化トレーニングが有効であることを示す。
実験により,PIPデータにコスト効率の高いSRPトラジェクトリを多数導入することにより,ゼロショットシーンにおける成功率を最大41%向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 10.044039169051977
- License:
- Abstract: The growing adoption of Vision-Language-Action (VLA) models in embodied AI intensifies the demand for diverse manipulation demonstrations. However, high costs associated with data collection often result in insufficient data coverage across all scenarios, which limits the performance of the models. It is observed that the spatial reasoning phase (SRP) in large workspace dominates the failure cases. Fortunately, this data can be collected with low cost, underscoring the potential of leveraging inexpensive data to improve model performance. In this paper, we introduce the DataPlatter method, a framework that decouples training trajectories into distinct task stages and leverages abundant easily collectible SRP data to enhance VLA model's generalization. Through analysis we demonstrate that sub-task-specific training with additional SRP data with proper proportion can act as a performance catalyst for robot manipulation, maximizing the utilization of costly physical interaction phase (PIP) data. Experiments show that through introducing large proportion of cost-effective SRP trajectories into a limited set of PIP data, we can achieve a maximum improvement of 41\% on success rate in zero-shot scenes, while with the ability to transfer manipulation skill to novel targets.
- Abstract(参考訳): インボディードAIにおけるVLA(Vision-Language-Action)モデルの採用の増加は、多様な操作デモの需要を高めている。
しかし、データ収集に関連するコストが高いため、すべてのシナリオでデータカバレッジが不十分になり、モデルの性能が制限される。
大規模な作業空間における空間的推論フェーズ(SRP)が障害事例を支配していることが観察された。
幸いなことに、このデータは低コストで収集することができ、安価なデータを活用してモデルの性能を向上させる可能性を強調している。
本稿では,学習軌跡を個別のタスクステージに分離し,豊富な収集可能なSRPデータを活用してVLAモデルの一般化を促進するフレームワークであるDataPlatter法を提案する。
解析により,PIPデータの利用を最大化しながら,適切な比率で追加のSRPデータを用いたサブタスク特化トレーニングがロボット操作のパフォーマンス触媒として機能することを実証した。
実験により、コスト効率の高いSRPトラジェクトリを限られたPIPデータに大量に導入することにより、ゼロショットシーンにおける成功率を最大41倍に向上し、新たなターゲットに操作スキルを移行できることを示した。
関連論文リスト
- Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。
本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文 参考訳(メタデータ) (2025-02-16T21:57:35Z) - YuLan-Mini: An Open Data-efficient Language Model [111.02822724500552]
2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。
注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (2024-12-23T17:47:53Z) - Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。
しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文 参考訳(メタデータ) (2024-11-22T08:17:46Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Towards Reducing Data Acquisition and Labeling for Defect Detection using Simulated Data [0.04194295877935867]
多くの製造環境では、機械学習やコンピュータビジョンのためのアノテートデータがコストがかかるが、合成データは大幅に低コストで生成される。
したがって、実世界のデータを合成データで置き換えることは、大量のトレーニングデータを必要とする多くの機械学習アプリケーションにとって魅力的である。
アルミニウムホイールのX線スキャンにおける欠陥を検出する際に,そのような領域シフトに対処するためのアプローチについて議論する。
論文 参考訳(メタデータ) (2024-06-27T13:51:53Z) - VIRL: Volume-Informed Representation Learning towards Few-shot Manufacturability Estimation [0.0]
本研究は,3次元幾何エンコーダの事前学習のためのボリュームインフォームド表現学習手法であるVIRLを紹介する。
VIRLによって事前訓練されたモデルでは,データ制限による一般化性の向上が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-18T05:30:26Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Scaled Prompt-Tuning for Few-Shot Natural Language Generation [9.399840807973545]
大きな言語モデル(LLM)は、より強力な言語理解と生成能力を示す。
下流タスクにおける微調整LDMのメモリ需要と計算コストは無視できない。
本稿では,従来のPTよりも優れた性能と一般化能力を持つスケールド・プロンプト・チューニング(SPT)手法を提案する。
論文 参考訳(メタデータ) (2023-09-13T07:12:31Z) - DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。
GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文 参考訳(メタデータ) (2022-12-07T12:27:28Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。