論文の概要: DiaBlo: Diagonal Blocks Are Sufficient For Finetuning
- arxiv url: http://arxiv.org/abs/2506.03230v1
- Date: Tue, 03 Jun 2025 13:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.966329
- Title: DiaBlo: Diagonal Blocks Are Sufficient For Finetuning
- Title(参考訳): DiaBlo: 斜めブロックはファインタニングに十分
- Authors: Selcuk Gurses, Aozhong Zhang, Yanxia Deng, Xun Dong, Xin Li, Naigang Wang, Penghang Yin, Zi Yang,
- Abstract要約: 選択したモデル重み行列の対角ブロックのみを更新するPEFTアプローチであるDiaBloを提案する。
ローランク適応(LoRA)とその変種とは異なり、ダイアブロはローランク行列生成物の必要性を排除している。
この設計は、LoRAに匹敵するメモリ効率とトレーニング速度を維持しながら、安定かつ堅牢な収束をもたらす。
- 参考スコア(独自算出の注目度): 5.615105036691153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning is a critical step for adapting large language models (LLMs) to domain-specific downstream tasks. To mitigate the substantial computational and memory costs of full-model fine-tuning, Parameter-Efficient Finetuning (PEFT) methods have been proposed to update only a small subset of model parameters. However, performance gaps between PEFT approaches and full-model fine-tuning still exist. In this work, we present DiaBlo, a simple yet effective PEFT approach that updates only the diagonal blocks of selected model weight matrices. Unlike Low Rank Adaptation (LoRA) and its variants, DiaBlo eliminates the need for low rank matrix products, thereby avoiding the reliance on auxiliary initialization schemes or customized optimization strategies to improve convergence. This design leads to stable and robust convergence while maintaining comparable memory efficiency and training speed to LoRA. We conduct extensive experiments across a range of tasks, including commonsense reasoning, arithmetic reasoning, code generation, and safety alignment, to evaluate the effectiveness and efficiency of DiaBlo. Across these benchmarks, DiaBlo demonstrates strong and consistent performance while maintaining high memory efficiency and fast finetuning speed. Codes are available at https://github.com/ziyangjoy/DiaBlo.
- Abstract(参考訳): ファインチューニングは、大きな言語モデル(LLM)をドメイン固有の下流タスクに適用するための重要なステップである。
完全モデルファインチューニング(PEFT)法では,計算コストとメモリコストを大幅に削減するため,モデルパラメータの小さなサブセットだけを更新する手法が提案されている。
しかし、PEFTアプローチとフルモデルファインチューニングのパフォーマンスギャップは依然として残っている。
本研究では,選択したモデル重み行列の対角ブロックのみを更新する,単純で効果的なPEFT手法であるDiaBloを提案する。
低ランク適応(LoRA)とその変種とは異なり、DiaBloは低ランク行列製品の必要性を排除し、コンバージェンスを改善するための補助的な初期化スキームや最適化戦略への依存を避ける。
この設計は、LoRAに匹敵するメモリ効率とトレーニング速度を維持しながら、安定かつ堅牢な収束をもたらす。
本研究では,DiaBloの有効性と効率を評価するために,コモンセンス推論,算術推論,コード生成,安全性アライメントなど,多岐にわたる実験を行った。
これらのベンチマーク全体で、DiaBloは、高いメモリ効率と高速な微調整速度を維持しながら、強力で一貫したパフォーマンスを示している。
コードはhttps://github.com/ziyangjoy/DiaBlo.comで入手できる。
関連論文リスト
- 1LoRA: Summation Compression for Very Low-Rank Adaptation [6.00844864296448]
検討したPEFT法に対して, 線形層毎のパラメータの最小値を微調整する「極低階法」について検討した。
本稿では, 計算, パラメータ, メモリ効率のよい微調整手法である1LoRAを提案する。
論文 参考訳(メタデータ) (2025-03-11T11:45:20Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning [7.239534396071191]
CapaBoostは、ターゲット層における並列重みモジュールによる低ランク更新を活用することで、モデルキャパシティを向上させる戦略である。
本稿では,自然言語理解,質問応答,画像分類など,さまざまな下流タスクの実験を通じて,CapaBoostの有効性を広く検証する。
以上の結果から,計算コストやストレージコストを増大させることなく,ベースラインよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-01T14:26:48Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。