論文の概要: TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.00615v1
- Date: Sat, 28 Feb 2026 12:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.783541
- Title: TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation
- Title(参考訳): TGM-VLA: サンプリング効率・ロバストロボットマニピュレーションのためのタスクガイド混合
- Authors: Fanqi Pu, Lei Jiang, Wenming Yang,
- Abstract要約: 本稿では,モデル性能とトレーニング効率の両方を大幅に改善する,新しい包括的枠組みを提案する。
まず,サンプリング戦略の再設計と最適化を行い,メモリ消費を80%削減し,トレーニング速度を5倍に向上させた。
第二に,暗黒物体のあいまいさを解消する単純で効果的なモジュールであるカラー反転投影分岐を用いてモデルを強化する。
- 参考スコア(独自算出の注目度): 42.52624620346963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of robotic imitation learning is fundamentally limited by data quality and training strategies. Prevalent sampling strategies on RLBench suffer from severe keyframe redundancy and imbalanced temporal distribution, leading to inefficient memory usage and unstable optimization. Moreover, reprojecting point clouds onto multi-view images with a black background--while more efficient than voxel-based methods--often causes dark objects to be indistinguishable and hard to manipulate. In this work, we propose a novel holistic framework that significantly improves both model performance and training efficiency. First, we redesign and optimize the keyframe sampling strategy, reducing memory consumption by 80% and accelerating training speed by 5x. Second, we augment the model with a color inversion projection branch--a simple yet effective module that resolves the ambiguity of dark objects. Finally, we propose a task-guided mixup technique that dynamically fuses point clouds and action heatmaps according to task instructions, greatly improving robustness to distractors and performance in multi-goal scenarios. Extensive experiments demonstrate that our method achieves state-of-the-art performance with a 90.5% success rate on RLBench and 68.8% on the COLOSSEUM benchmark under challenging interference conditions. Our code and checkpoints are available at https://github.com/PuFanqi23/TGM-VLA.
- Abstract(参考訳): ロボット模倣学習の性能は、基本的にデータ品質とトレーニング戦略によって制限される。
RLBenchのサンプリング戦略は、キーフレームの冗長性と時間分布の不均衡に悩まされ、非効率なメモリ使用率と不安定な最適化をもたらす。
さらに,黒背景のマルチビュー画像上に点雲を投影することは,しばしばボクセルベースの手法よりも効率的であり,暗黒物体の識別が困難である。本研究では,モデル性能とトレーニング効率を両立させ,キーフレームサンプリング戦略を設計・最適化し,メモリ消費を80%削減し,トレーニング速度を5倍に向上させる。第2に,暗黒物体のあいまいさを解消する,シンプルで効果的なモジュールであるカラー反転プロジェクションブランチでモデルを拡張する。
最後に,タスク指示に従ってポイントクラウドとアクションヒートマップを動的に融合させるタスク誘導混合手法を提案する。
COLOSSEUMベンチマークでは90.5%がRLBenchで,68.8%がCOLOSSEUMで達成された。
私たちのコードとチェックポイントはhttps://github.com/PuFanqi23/TGM-VLAで公開されています。
関連論文リスト
- TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models [29.878993349922368]
Vision-Language-Action (VLA)モデルは、ロボット操作タスクに固有の貴重な時間情報を捨て、各タイミングで視覚入力を独立に処理する。
本稿では,VLA推論品質を向上させるために,歴史的および現在の視覚表現を統合した訓練不要なTTFを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:03:34Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。