論文の概要: Beware of the Batch Size: Hyperparameter Bias in Evaluating LoRA
- arxiv url: http://arxiv.org/abs/2602.09492v1
- Date: Tue, 10 Feb 2026 07:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.430986
- Title: Beware of the Batch Size: Hyperparameter Bias in Evaluating LoRA
- Title(参考訳): バッチサイズに気をつけて - LoRAの評価におけるハイパーパラメータバイアス
- Authors: Sangyoon Lee, Jaeho Lee,
- Abstract要約: ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの微調整のための標準手法である。
矛盾は1つの見過ごされた要因、すなわちバッチサイズから生じます。
- 参考スコア(独自算出の注目度): 10.936682799774454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) is a standard approach for fine-tuning large language models, yet its many variants report conflicting empirical gains, often on the same benchmarks. We show that these contradictions arise from a single overlooked factor: the batch size. When properly tuned, vanilla LoRA often matches the performance of more complex variants. We further propose a proxy-based, cost-efficient strategy for batch size tuning, revealing the impact of rank, dataset size, and model capacity on the optimal batch size. Our findings elevate batch size from a minor implementation detail to a first-order design parameter, reconciling prior inconsistencies and enabling more reliable evaluations of LoRA variants.
- Abstract(参考訳): ローランク適応(LoRA)は、微調整された大きな言語モデルのための標準的なアプローチであるが、多くの変種は、しばしば同じベンチマーク上で経験的ゲインと矛盾していると報告している。
これらの矛盾は、1つの見過ごされた要因、すなわちバッチサイズから生じます。
適切に調整すると、バニラ・ロラはより複雑なバリエーションのパフォーマンスとよく一致する。
さらに、バッチサイズ調整のためのプロキシベースのコスト効率戦略を提案し、最適なバッチサイズに対するランク、データセットサイズ、モデルキャパシティの影響を明らかにする。
本研究は, バッチサイズを, マイナー実装の詳細から一階設計パラメータまで高め, 事前の不整合を緩和し, より信頼性の高いLoRA変種の評価を可能にした。
関連論文リスト
- Bayesian-LoRA: Probabilistic Low-Rank Adaptation of Large Language Models [5.653755499165773]
本稿では,Sparse Gaussian Processesにインスパイアされた確率的低ランク表現として,決定論的LoRA更新を再構成するBayesian-LoRAを紹介する。
約0.42Mの追加パラメータと$approx1.2timesのトレーニングコストを標準のLoRAと比較すると、Bayesian-LoRAは最大30Bまでのモデルのキャリブレーションを大幅に改善した。
論文 参考訳(メタデータ) (2026-01-28T19:54:31Z) - Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [69.57125049281993]
この作業は、バッチサイズ1まで、小さなバッチサイズを見直します。
小さいバッチサイズは安定してトレーニングし、より大きなバッチサイズよりもFLOP当たりのパフォーマンスが等しく、あるいは良好であることが分かりました。
論文 参考訳(メタデータ) (2025-07-09T17:57:36Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA Meets Dropout under a Unified Framework [38.5176197615878]
大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。
様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。
我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
論文 参考訳(メタデータ) (2024-02-25T07:09:10Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - LoRA ensembles for large language model fine-tuning [35.78186948630364]
Low-Rank Adapters (LoRA) はパラメータ効率の良い微調整技術である。
LoRAは非常に少数のパラメータを表しており、基礎となる事前訓練モデルよりも桁違いに少ない。
LoRAアンサンブルは,既存の正則化技術上にのみ適用され,予測精度と不確実性の定量化に一貫した改善をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-09-29T16:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。