論文の概要: RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2506.17639v1
- Date: Sat, 21 Jun 2025 08:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.522357
- Title: RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models
- Title(参考訳): RLRC:圧縮視覚言語行動モデルのための強化学習に基づく回復
- Authors: Yuxuan Chen, Xiao Li,
- Abstract要約: VLA(Vision-Language-Action Model)は、複雑なロボット操作タスクを解く上で、目覚ましい能力と有望な可能性を示してきた。
パラメータのかなりのサイズと高い推論レイテンシは、現実世界のデプロイメントに重大な課題をもたらします。
圧縮VLAの3段階回収法であるRLRCを提案する。
- 参考スコア(独自算出の注目度): 11.688277445120567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models (VLA) have demonstrated remarkable capabilities and promising potential in solving complex robotic manipulation tasks. However, their substantial parameter sizes and high inference latency pose significant challenges for real-world deployment, particularly on resource-constrained robotic platforms. To address this issue, we begin by conducting an extensive empirical study to explore the effectiveness of model compression techniques when applied to VLAs. Building on the insights gained from these preliminary experiments, we propose RLRC, a three-stage recovery method for compressed VLAs, including structured pruning, performance recovery based on SFT and RL, and further quantization. RLRC achieves up to an 8x reduction in memory usage and a 2.3x improvement in inference throughput, while maintaining or even surpassing the original VLA's task success rate. Extensive experiments show that RLRC consistently outperforms existing compression baselines, demonstrating strong potential for on-device deployment of VLAs. Project website: https://rlrc-vla.github.io
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、複雑なロボット操作タスクを解く上で、目覚ましい能力と有望な可能性を示してきた。
しかし、それらのパラメータサイズと高い推論レイテンシは、特にリソース制約されたロボットプラットフォームにおいて、現実世界のデプロイメントにおいて重大な課題を生じさせる。
この問題に対処するために,VLAに適用した場合のモデル圧縮技術の有効性について,広範囲にわたる実証研究を行うことから始める。
これらの予備実験から得られた知見に基づいて、構造化プルーニング、SFTおよびRLに基づく性能回復、さらに量子化を含む圧縮VLAの3段階回収法であるRLRCを提案する。
RLRCは最大8倍のメモリ使用量削減と2.3倍の推論スループット向上を実現し、オリジナルのVLAのタスク成功率を維持したり超えたりしている。
大規模な実験により、RLRCは既存の圧縮ベースラインを一貫して上回り、デバイス上でのVLAの展開の可能性を示している。
プロジェクトウェブサイト:https://rlrc-vla.github.io
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Scalable Reinforcement Learning for Virtual Machine Scheduling [21.22990796153464]
クラスタ値分解強化学習(CVD-RL)
本稿では,クラスタ値分解強化学習(CVD-RL)と呼ばれるスケーラブルなRLフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-03-01T15:33:52Z) - Enhancing CTC-Based Visual Speech Recognition [11.269066294359144]
LiteVSR2は、以前導入した視覚音声認識に対する効率的なアプローチの拡張版である。
本稿では, 安定ビデオ前処理技術と蒸留プロセスにおける特徴正規化の2つの重要な改良点を紹介する。
LiteVSR2は前者の効率を維持しながら精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-11T12:02:42Z) - The Impact of Quantization and Pruning on Deep Reinforcement Learning Models [1.5252729367921107]
深層強化学習(DRL)は、ビデオゲーム、ロボティクス、近年の大規模言語モデルなど、様々な領域で顕著な成功を収めている。
しかし、DRLモデルの計算コストとメモリ要求はリソース制約された環境への展開を制限することが多い。
本研究では,DRLモデルに対する量子化とプルーニングという2つの顕著な圧縮手法の影響について検討した。
論文 参考訳(メタデータ) (2024-07-05T18:21:17Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。