論文の概要: A Little Rank Goes a Long Way: Random Scaffolds with LoRA Adapters Are All You Need
- arxiv url: http://arxiv.org/abs/2604.08749v2
- Date: Mon, 13 Apr 2026 02:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 14:47:45.809481
- Title: A Little Rank Goes a Long Way: Random Scaffolds with LoRA Adapters Are All You Need
- Title(参考訳): LoRAアダプターを装着したランダムなスキャッフルは必要なものすべて
- Authors: Hananel Hazan, Yanbo Zhang, Benedikt Hartl, Michael Levin,
- Abstract要約: LottaLoRAは、すべてのバックボーン重量をランダムに描画して凍結するトレーニングパラダイムであり、ローランクのLoRAアダプタのみがトレーニングされる。
9つのベンチマークで、さまざまなアーキテクチャファミリーが、完全にトレーニングされたパフォーマンスの96-100%を回復し、パラメータの0.5-40%しかトレーニングしていない。
- 参考スコア(独自算出の注目度): 6.398929702678775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: How many of a neural network's parameters actually encode task-specific information? We investigate this question with LottaLoRA, a training paradigm in which every backbone weight is drawn at random and frozen; only low-rank LoRA adapters are trained. Across nine benchmarks spanning diverse architecture families from single-layer classifiers to 900M parameter Transformers low-rank adapters over frozen random backbones recover 96-100% of fully trained performance while training only 0.5-40% of the parameters. The task-specific signal therefore occupies a subspace orders of magnitude smaller than the full parameter count suggests. Three mechanistic findings underpin this result:(1) the frozen backbone is actively exploited when static the learned scaling~$β$ remains strictly positive across all architectures but when the scaffold is destabilized, the optimizer silences it and the LoRA factors absorb all task information; (2) the frozen backbone is preferable but interchangeable any random initialization works equally well, provided it remains fixed throughout training; and (3) the minimum LoRA rank at which performance saturates estimates the intrinsic dimensionality of the task, reminiscent of the number of components retained in Principal Component Analysis (PCA). The construction is formally analogous to Reservoir Computing unfolded along the depth axis of a feedforward network. Because the backbone is determined by a random seed alone, models can be distributed as adapters plus seed a footprint that grows with task complexity, not model size, so that storage and memory savings compound as architectures scale.
- Abstract(参考訳): 実際にタスク固有の情報をエンコードするニューラルネットワークのパラメータはいくつあるか?
各バックボーン重みをランダムに描画し凍結する訓練パラダイムであるLottaLoRAを用いてこの問題を考察し,ローランクLoRAアダプタのみをトレーニングする。
シングルレイヤー分類器から900Mパラメータまで、さまざまなアーキテクチャファミリにまたがる9つのベンチマークで、トランスフォーマーの低ランクアダプタは、完全にトレーニングされたパフォーマンスの96-100%を回復し、パラメータの0.5-40%しかトレーニングしていない。
したがって、タスク固有の信号は、全パラメータ数が示すよりも桁違いに小さい部分空間の順序を占有する。
1) 凍結したバックボーンは静的なスケーリング~$β$ が全てのアーキテクチャで厳密な正の値を維持するが、足場が不安定になると最適化器がそれを黙らせ、LoRA因子が全てのタスク情報を吸収する。
この構造は、フィードフォワードネットワークの深さ軸に沿って展開されたReservoir Computingと正式に類似している。
バックボーンはランダムなシードによって決定されるため、モデルをアダプタとして配布し、モデルサイズではなくタスクの複雑さで成長するフットプリントをシードにすることができる。
関連論文リスト
- Beyond SGD, Without SVD: Proximal Subspace Iteration LoRA with Diagonal Fractional K-FAC [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。
本研究では,ローランクプロジェクション(SVDLoRA)とローラファインチューニング(LoRAファインタニング)のフルステップでのトレーニングのギャップに対処する。
勾配降下のギャップを埋めるメモリ効率の良いサブルーチンであるLoRSumを提案する。
論文 参考訳(メタデータ) (2026-02-18T13:41:41Z) - Layer-wise LoRA fine-tuning: a similarity metric approach [0.6323908398583081]
Low-Rank Adaptation (LoRA) 技術は、事前学習されたモデルを凍結し、少数のパラメータを更新することで、このプロセスの計算コストを削減することを目的としている。
従来の問題に対して,LoRAやその変種を用いて,少数の層のみを微調整に体系的に選択することで対処する。
異なるモデルやタスク間で予測性能を維持しながら、LoRAベースのテクニックのトレーニング可能なパラメータを最大50%削減する。
論文 参考訳(メタデータ) (2026-02-05T18:38:53Z) - ChunkWise LoRA: Adaptive Sequence Partitioning for Memory-Efficient Low-Rank Adaptation and Accelerated LLM Inference [0.21064685964744576]
ChunkWise LoRAはトークンの複雑さに基づいてシーケンスを可変長のチャンクに分割し、各チャンクに調整されたローランク構成を割り当てる。
Wikitext-103やSQuADのようなベンチマークデータセットの実験では、ChunkWise LoRAは最大で34%のレイテンシと38%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2026-01-28T22:58:28Z) - The Quest for Winning Tickets in Low-Rank Adapters [24.58659526975649]
Lottery Ticket仮説がパラメータ効率の良い微調整に拡張されるかどうかを検討する。
我々の重要な発見は、LTHがLoRA(Lo-Rank Adaptation)メソッド内に保持されていることです。
そこで本研究では,課題関連部分空間に適合する低ランクアダプタを訓練し,サロワークを識別する手法であるPartial-LoRAを提案する。
論文 参考訳(メタデータ) (2025-12-27T06:39:08Z) - Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文 参考訳(メタデータ) (2025-07-09T03:25:45Z) - No Free Lunch From Random Feature Ensembles: Scaling Laws and Near-Optimality Conditions [33.21599217370897]
総モデルサイズの固定予算が与えられた場合、1つの大きなモデルをトレーニングするか、または複数のより小さなモデルの予測を組み合わせるかを選択する必要がある。
固定数のパラメータが独立に訓練されたモデルに分散すると、リッジ最適化テストのリスクは$K$で増加する。
次に、アンサンブルがテクテニア最適のパフォーマンスをいつ達成できるかを尋ねる。
論文 参考訳(メタデータ) (2024-12-06T20:55:27Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - Learning to Compose SuperWeights for Neural Parameter Allocation Search [61.078949532440724]
提案手法は,同じ重み集合を用いて多くのネットワークに対してパラメータを生成することができることを示す。
これにより、効率的なアンサンブルや、いつでも予測できるようなタスクをサポートできます。
論文 参考訳(メタデータ) (2023-12-03T04:20:02Z) - FedRA: A Random Allocation Strategy for Federated Tuning to Unleash the
Power of Heterogeneous Clients [50.13097183691517]
実世界のフェデレーションシナリオでは、様々な計算と通信資源を持つ多種多様なクライアントが存在することが多い。
本稿では,新しいフェデレーションチューニングアルゴリズムであるFedRAを提案する。
各通信ラウンドにおいて、FedRAはランダムにアロケーション行列を生成する。
アダプタを用いてアロケーション行列とファインチューンに基づいて、元のモデルから少数のレイヤを再編成する。
論文 参考訳(メタデータ) (2023-11-19T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。