論文の概要: Beware of the Batch Size: Hyperparameter Bias in Evaluating LoRA
- arxiv url: http://arxiv.org/abs/2602.09492v1
- Date: Tue, 10 Feb 2026 07:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.430986
- Title: Beware of the Batch Size: Hyperparameter Bias in Evaluating LoRA
- Title(参考訳): バッチサイズに気をつけて - LoRAの評価におけるハイパーパラメータバイアス
- Authors: Sangyoon Lee, Jaeho Lee,
- Abstract要約: ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの微調整のための標準手法である。
矛盾は1つの見過ごされた要因、すなわちバッチサイズから生じます。
- 参考スコア(独自算出の注目度): 10.936682799774454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) is a standard approach for fine-tuning large language models, yet its many variants report conflicting empirical gains, often on the same benchmarks. We show that these contradictions arise from a single overlooked factor: the batch size. When properly tuned, vanilla LoRA often matches the performance of more complex variants. We further propose a proxy-based, cost-efficient strategy for batch size tuning, revealing the impact of rank, dataset size, and model capacity on the optimal batch size. Our findings elevate batch size from a minor implementation detail to a first-order design parameter, reconciling prior inconsistencies and enabling more reliable evaluations of LoRA variants.
- Abstract(参考訳): ローランク適応(LoRA)は、微調整された大きな言語モデルのための標準的なアプローチであるが、多くの変種は、しばしば同じベンチマーク上で経験的ゲインと矛盾していると報告している。
これらの矛盾は、1つの見過ごされた要因、すなわちバッチサイズから生じます。
適切に調整すると、バニラ・ロラはより複雑なバリエーションのパフォーマンスとよく一致する。
さらに、バッチサイズ調整のためのプロキシベースのコスト効率戦略を提案し、最適なバッチサイズに対するランク、データセットサイズ、モデルキャパシティの影響を明らかにする。
本研究は, バッチサイズを, マイナー実装の詳細から一階設計パラメータまで高め, 事前の不整合を緩和し, より信頼性の高いLoRA変種の評価を可能にした。
関連論文リスト
- Bayesian-LoRA: Probabilistic Low-Rank Adaptation of Large Language Models [5.653755499165773]
本稿では,Sparse Gaussian Processesにインスパイアされた確率的低ランク表現として,決定論的LoRA更新を再構成するBayesian-LoRAを紹介する。
約0.42Mの追加パラメータと$approx1.2timesのトレーニングコストを標準のLoRAと比較すると、Bayesian-LoRAは最大30Bまでのモデルのキャリブレーションを大幅に改善した。
論文 参考訳(メタデータ) (2026-01-28T19:54:31Z) - ShapLoRA: Allocation of Low-rank Adaption on Large Language Models via Shapley Value Inspired Importance Estimation [6.503102865159402]
低ランク適応(LoRA)はパラメータ効率微調整(PEFT)の分野における代表的手法である
近年の文献では、LLMバックボーンのランクを適切に割り当てると性能が向上することがわかった。
提案するShapLoRAフレームワークは,説明可能な属性尺度であるShapley Valueにヒントを得たものだ。
論文 参考訳(メタデータ) (2026-01-25T17:52:13Z) - High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - LoFA: Learning to Predict Personalized Priors for Fast Adaptation of Visual Generative Models [50.46815266062554]
Low-Rank Adaptation (LoRA) は、タスク固有のデータと長い最適化の要求のため、実用的ではない。
高速モデル適応のためのパーソナライズされた事前情報を効率的に予測する汎用フレームワークであるLoFAを提案する。
提案手法は,複数のタスクやユーザプロンプトにまたがる,数秒以内の高品質なパーソナライズ前処理を常に予測し,処理時間を要する従来のLoRAよりも優れています。
論文 参考訳(メタデータ) (2025-12-09T16:39:31Z) - Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [69.57125049281993]
この作業は、バッチサイズ1まで、小さなバッチサイズを見直します。
小さいバッチサイズは安定してトレーニングし、より大きなバッチサイズよりもFLOP当たりのパフォーマンスが等しく、あるいは良好であることが分かりました。
論文 参考訳(メタデータ) (2025-07-09T17:57:36Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
理論的導出に基づく新しい微調整法であるLoRA-XSを紹介する。
LoRA-XSは、小さくてトレーニング可能な重量行列を組み込むことで、トレーニング可能なパラメータを劇的に削減する。
モジュールごとにひとつのパラメータから任意の大きな値にスケールでき、任意のストレージや計算の制約に適応できる。
論文 参考訳(メタデータ) (2024-05-27T19:07:13Z) - LoRA Meets Dropout under a Unified Framework [38.5176197615878]
大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。
様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。
我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
論文 参考訳(メタデータ) (2024-02-25T07:09:10Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - LoRA ensembles for large language model fine-tuning [35.78186948630364]
Low-Rank Adapters (LoRA) はパラメータ効率の良い微調整技術である。
LoRAは非常に少数のパラメータを表しており、基礎となる事前訓練モデルよりも桁違いに少ない。
LoRAアンサンブルは,既存の正則化技術上にのみ適用され,予測精度と不確実性の定量化に一貫した改善をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-09-29T16:38:38Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。