論文の概要: Adaptive Capacity Allocation for Vision Language Action Fine-tuning
- arxiv url: http://arxiv.org/abs/2603.07404v1
- Date: Sun, 08 Mar 2026 01:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.407935
- Title: Adaptive Capacity Allocation for Vision Language Action Fine-tuning
- Title(参考訳): 視覚言語行動微調整のための適応的容量割当
- Authors: Donghoon Kim, Minji Bae, Unghui Nam, Gyeonghun Kim, Suyun Lee, Kyuhong Shim, Byonghyo Shim,
- Abstract要約: 視覚言語アクションモデル(VLA)は、物理AIにますます使われているが、未確認環境に事前訓練されたVLAモデルをデプロイするには、まだ適応が必要である。
固定ランク更新を入力および層単位のキャパシティに置き換えるランク適応微調整法であるLoRA-SPを提案する。
目に見えないAgileX PiPERのアームで収集された4つの実ロボット操作タスクでは、LoRA-SPはトレーニング可能なパラメータがはるかに少ない完全な微調整にマッチするか、超える。
- 参考スコア(独自算出の注目度): 30.782665306687992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language action models (VLAs) are increasingly used for Physical AI, but deploying a pre-trained VLA model to unseen environments, embodiments, or tasks still requires adaptation. Parameter-efficient fine-tuning (PEFT), especially LoRA, is common for VLA policies, yet the exposed capacity knob, the rank, does not transfer uniformly: robotics transfer exhibits a higher and task-varying intrinsic rank than language fine-tuning. Small ranks suffice for LLMs (e.g., $r \in \{4, 8\}$), while spectral analyses indicate VLAs may require much larger ranks (e.g., $r \approx 128$) or near-full rank, a mismatch that worsens in multi-task settings. We present LoRA-SP (Select-Prune), a rank-adaptive fine-tuning method that replaces fixed-rank updates with input- and layer-wise capacity. LoRA-SP uses an SVD-style parameterization with a small router whose nonnegative scores act as singular values over a shared vector bank. The active set is chosen by an energy target on the cumulative squared scores $E(k) \ge η$, providing a direct link to approximation error via our spectral analysis. During training, $η$ concentrates energy on a few directions and teaches the router to rely on fewer vectors while preserving accuracy. This yields compact adapters that reduce cross-task interference and improve generalization. On four real-robot manipulation tasks collected on an unseen AgileX PiPER arm, across two VLA backbones ($π_0$ and SmolVLA), LoRA-SP matches or exceeds full fine-tuning with far fewer trainable parameters, and improves multi-task success by up to 31.6% over standard LoRA while remaining robust to rank choice.
- Abstract(参考訳): 視覚言語アクションモデル(VLA)は、物理AIにますます使われているが、トレーニング済みのVLAモデルを未確認の環境、実施環境、タスクにデプロイするには、まだ適応が必要である。
パラメータ効率の良い微調整(PEFT)、特にLoRAはVLAポリシーでは一般的であるが、露出容量ノブ(ランク)は均一に転送されない。
LLM (e g , $r \in \{4, 8\}$) の小さなランクは十分であるが、スペクトル分析では、VLAはより大きなランク (e g , $r \approx 128$) を必要とする可能性がある。
固定ランク更新を入力および層単位のキャパシティに置き換えるランク適応微調整法であるLoRA-SP(Select-Prune)を提案する。
LoRA-SPはSVD方式のパラメータ化と、非負のスコアが共有ベクトルバンク上の特異値として働く小さなルータを用いる。
活性集合は累積平方点上のエネルギー目標$E(k) \ge η$によって選択され、スペクトル解析を通じて近似誤差に直接リンクする。
トレーニング中、$η$は数方向にエネルギーを集中させ、精度を保ちながらより少ないベクトルに依存するようにルータに教える。
これにより、クロスタスク干渉を低減し、一般化を改善するコンパクトアダプタが得られる。
見えないAgileX PiPERの2つのVLAバックボーン(π_0$とSmolVLA)にまたがる4つの実ロボット操作タスクにおいて、LoRA-SPはトレーニング可能なパラメータをはるかに少なくして完全な微調整に適合する。
関連論文リスト
- Spectral Surgery: Training-Free Refinement of LoRA via Gradient-Guided Singular Value Reweighting [19.886879714344076]
Low-Rank Adaptation (LoRA)は、タスク更新を低ランクパラメータサブスペースに制限することで、ダウンストリームのパフォーマンスを改善する。
訓練されたLoRA更新は、しばしば非効率なスペクトルを示し、タスク効果は特異方向の小さなサブセットに集中している。
SVD で LoRA 更新を分解する訓練自由改良法である Spectral Surgery を提案する。
論文 参考訳(メタデータ) (2026-03-04T12:38:36Z) - Learning Rate Scaling across LoRA Ranks and Transfer to Full Finetuning [24.03926595342341]
Low-Rank Adaptation (LoRA) は、大規模モデルのパラメータ効率の良い微調整ツールである。
最適な学習速度がアダプタランクとどのようにスケールするかは不明確である。
最適」学習率がいかにスケールすべきかを特徴付ける理論フレームワークであるMaximal-Update Adaptation(A)を紹介する。
論文 参考訳(メタデータ) (2026-02-05T21:28:59Z) - LoRA on the Go: Instance-level Dynamic LoRA Selection and Merging [9.68092924064735]
Low-Rank Adaptation (LoRA) は、大規模言語モデルを微調整するためのパラメータ効率の高いアプローチとして登場した。
LoGoはトレーニング不要のフレームワークで、追加の要件なしにインスタンスレベルでアダプタを動的に選択し、マージする。
LoGoはトレーニングベースのベースラインを3.6%まで上回り、他のタスクでは競争力を維持している。
論文 参考訳(メタデータ) (2025-11-10T14:13:10Z) - Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。
ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文 参考訳(メタデータ) (2025-09-24T10:32:50Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。