論文の概要: RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2506.17639v1
- Date: Sat, 21 Jun 2025 08:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.522357
- Title: RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models
- Title(参考訳): RLRC:圧縮視覚言語行動モデルのための強化学習に基づく回復
- Authors: Yuxuan Chen, Xiao Li,
- Abstract要約: VLA(Vision-Language-Action Model)は、複雑なロボット操作タスクを解く上で、目覚ましい能力と有望な可能性を示してきた。
パラメータのかなりのサイズと高い推論レイテンシは、現実世界のデプロイメントに重大な課題をもたらします。
圧縮VLAの3段階回収法であるRLRCを提案する。
- 参考スコア(独自算出の注目度): 11.688277445120567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models (VLA) have demonstrated remarkable capabilities and promising potential in solving complex robotic manipulation tasks. However, their substantial parameter sizes and high inference latency pose significant challenges for real-world deployment, particularly on resource-constrained robotic platforms. To address this issue, we begin by conducting an extensive empirical study to explore the effectiveness of model compression techniques when applied to VLAs. Building on the insights gained from these preliminary experiments, we propose RLRC, a three-stage recovery method for compressed VLAs, including structured pruning, performance recovery based on SFT and RL, and further quantization. RLRC achieves up to an 8x reduction in memory usage and a 2.3x improvement in inference throughput, while maintaining or even surpassing the original VLA's task success rate. Extensive experiments show that RLRC consistently outperforms existing compression baselines, demonstrating strong potential for on-device deployment of VLAs. Project website: https://rlrc-vla.github.io
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、複雑なロボット操作タスクを解く上で、目覚ましい能力と有望な可能性を示してきた。
しかし、それらのパラメータサイズと高い推論レイテンシは、特にリソース制約されたロボットプラットフォームにおいて、現実世界のデプロイメントにおいて重大な課題を生じさせる。
この問題に対処するために,VLAに適用した場合のモデル圧縮技術の有効性について,広範囲にわたる実証研究を行うことから始める。
これらの予備実験から得られた知見に基づいて、構造化プルーニング、SFTおよびRLに基づく性能回復、さらに量子化を含む圧縮VLAの3段階回収法であるRLRCを提案する。
RLRCは最大8倍のメモリ使用量削減と2.3倍の推論スループット向上を実現し、オリジナルのVLAのタスク成功率を維持したり超えたりしている。
大規模な実験により、RLRCは既存の圧縮ベースラインを一貫して上回り、デバイス上でのVLAの展開の可能性を示している。
プロジェクトウェブサイト:https://rlrc-vla.github.io
関連論文リスト
- CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning [7.780242426487376]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのための新しい強化学習フレームワークであるチャンクドRLを提案する。
このフレームワーク内では、VLAモデルの顕著な特徴であるアクションチャンキングを組み込むために、時間差(TD)学習を拡張する。
次に、限定的なデモセットを用いてVLAモデルを微調整するアルゴリズムであるCO-RFTを提案する。
論文 参考訳(メタデータ) (2025-08-04T09:11:48Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Scalable Reinforcement Learning for Virtual Machine Scheduling [21.22990796153464]
クラスタ値分解強化学習(CVD-RL)
本稿では,クラスタ値分解強化学習(CVD-RL)と呼ばれるスケーラブルなRLフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-03-01T15:33:52Z) - Enhancing CTC-Based Visual Speech Recognition [11.269066294359144]
LiteVSR2は、以前導入した視覚音声認識に対する効率的なアプローチの拡張版である。
本稿では, 安定ビデオ前処理技術と蒸留プロセスにおける特徴正規化の2つの重要な改良点を紹介する。
LiteVSR2は前者の効率を維持しながら精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-11T12:02:42Z) - The Impact of Quantization and Pruning on Deep Reinforcement Learning Models [1.5252729367921107]
深層強化学習(DRL)は、ビデオゲーム、ロボティクス、近年の大規模言語モデルなど、様々な領域で顕著な成功を収めている。
しかし、DRLモデルの計算コストとメモリ要求はリソース制約された環境への展開を制限することが多い。
本研究では,DRLモデルに対する量子化とプルーニングという2つの顕著な圧縮手法の影響について検討した。
論文 参考訳(メタデータ) (2024-07-05T18:21:17Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。