論文の概要: VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts
- arxiv url: http://arxiv.org/abs/2605.06175v1
- Date: Thu, 07 May 2026 12:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.800121
- Title: VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts
- Title(参考訳): VLA-GSE: 一般化された専門専門家によるVLAにおけるパラメータ効率向上のためのファインチューニング
- Authors: Yuhua Jiang, Junjie Lu, Xinyao Qin, Xiaoyu Chen, Kaixin Wang, Feifei Gao, Li Zhao,
- Abstract要約: VLA-GSEは、視覚言語アクションモデルのためのパラメータ効率の良いVLA微調整フレームワークである。
PEFTの知識保存の優位性を維持しつつ、制御適応を改善する。
LIBERO-Plusの平均ゼロショット成功率は81.2%である。
- 参考スコア(独自算出の注目度): 40.14658892346419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models inherit rich visual-semantic priors from pre-trained vision-language backbones, but adapting them to robotic control remains challenging. Full fine-tuning (FFT) is prone to overfitting on downstream robotic data and catastrophic forgetting of pretrained vision-language capabilities. Parameter-efficient fine-tuning (PEFT) better preserves pre-trained knowledge, yet existing PEFT methods still struggle to adapt effectively to robot control tasks. To address this gap, we propose VLA-GSE, a parameter-efficient VLA fine-tuning framework that improves control adaptation while retaining PEFT's knowledge preservation advantage. Specifically, VLA-GSE (Generalized and Specialized Experts) is initialized by spectrally decomposing the frozen backbone, assigning leading singular components to generalized experts (shared experts) and disjoint residual components to specialized experts (routed experts). This decomposition improves adaptation capacity under a fixed trainable-parameter budget. Under a comparable parameter budget, VLA-GSE updates only 2.51% of the full model parameters and consistently outperforms strong FFT and PEFT baselines. It achieves 81.2% average zero-shot success on LIBERO-Plus, preserves pre-trained VLM capability comparably to LoRA on multimodal understanding benchmarks, and improves real-world manipulation success under multiple distribution shifts. Code is available at: https://github.com/YuhuaJiang2002/VLA-GSE
- Abstract(参考訳): 視覚-言語-アクション(VLA)モデルは、事前訓練された視覚-言語バックボーンからリッチな視覚-セマンティック先行を継承するが、ロボット制御にそれらを適用することは依然として困難である。
完全な微調整(FFT)は、下流のロボットデータに過度に適合し、事前訓練された視覚言語能力を破滅的に忘れる傾向がある。
パラメータ効率の良い微調整(PEFT)は、事前訓練された知識をよりよく保存するが、既存のPEFT手法はロボット制御タスクに効果的に適応するのに依然として苦労している。
このギャップに対処するために,PEFTの知識保存の優位性を保ちながら制御適応を改善するパラメータ効率のよいVLA微調整フレームワークであるVLA-GSEを提案する。
具体的には、VLA-GSE(Generalized and Specialized Experts)は、凍結したバックボーンをスペクトル的に分解し、一般的な専門家(Shared Expert)に主成分を割り当て、専門専門家(Routed Expert)に残留成分を分離することで初期化される。
この分解は、一定のトレーニング可能なパラメータ予算の下で適応能力を向上させる。
同等のパラメータ予算の下では、VLA-GSEは完全なモデルパラメータの2.51%しか更新せず、強いFFTとPEFTのベースラインを一貫して上回っている。
LIBERO-Plusで平均81.2%のゼロショット成功を達成し、マルチモーダル理解ベンチマークでLoRAと互換性のある事前訓練済みのVLM能力を保ち、複数の分散シフトによる実世界の操作成功を改善する。
https://github.com/YuhuaJiang2002/VLA-GSE
関連論文リスト
- DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning [34.29473529235131]
LifeLong-RFTは、VLAモデルの簡易かつ効果的な強化微細チューニング(RFT)戦略である。
LifeLong-RFTは、チャンキングレベルのオンライン強化学習と、提案した多次元プロセスリワード(MDPR)機構を統合する。
本手法は,SFTよりも平均成功率を22%向上させると同時に,トレーニングデータの20%のみを用いて,新たなタスクに効果的に適応する。
論文 参考訳(メタデータ) (2026-02-11T04:05:03Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [28.977757627384165]
ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。
近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。
我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文 参考訳(メタデータ) (2024-07-21T07:50:49Z) - ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - HFT: Half Fine-Tuning for Large Language Models [42.60438623804577]
1つ以上の微調整フェーズを持つ大規模言語モデル(LLM)は、様々な機能をアンロックするために必要なステップとなっている。
本稿では,部分的パラメータを定期的にリセットすることで,LLMが元の知識の一部を復元できることを見出した。
本稿では,LLM 用ハーフファインチューニング (HFT) をフルファインチューニング (FFT) の代替として導入し,忘れる問題を緩和する。
論文 参考訳(メタデータ) (2024-04-29T07:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。