論文の概要: HoRA: Cross-Head Low-Rank Adaptation with Joint Hypernetworks
- arxiv url: http://arxiv.org/abs/2510.04295v1
- Date: Sun, 05 Oct 2025 17:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.569847
- Title: HoRA: Cross-Head Low-Rank Adaptation with Joint Hypernetworks
- Title(参考訳): HoRA: ジョイントハイパーネットによるクロスヘッド低ランク適応
- Authors: Nghiem T. Diep, Dung Le, Tuan Truong, Tan Dinh, Huy Nguyen, Nhat Ho,
- Abstract要約: Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微調整(PEFT)技術である。
本稿では,協調型ハイパーネットを用いて注目ヘッドにまたがる低ランク行列を生成する超共有低ランク適応法(HoRA)を提案する。
- 参考スコア(独自算出の注目度): 46.517158003663376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA) is a parameter-efficient fine-tuning (PEFT) technique that adapts large pre-trained models by adding low-rank matrices to their weight updates. However, in the context of fine-tuning multi-head self-attention (MHA), LoRA has been employed to adapt each attention head separately, thereby overlooking potential synergies across different heads. To mitigate this issue, we propose a novel Hyper-shared Low-Rank Adaptation (HoRA) method, which utilizes joint hypernetworks to generate low-rank matrices across attention heads. By coupling their adaptation through a shared generator, HoRA encourages cross-head information sharing, and thus directly addresses the aforementioned limitation of LoRA. By comparing LoRA and HoRA through the lens of hierarchical mixture of experts, our theoretical findings reveal that the latter achieves superior sample efficiency to the former. Furthermore, through extensive experiments across diverse language and vision benchmarks, we demonstrate that HoRA outperforms LoRA and other PEFT methods while requiring only a marginal increase in the number of trainable parameters.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微調整(PEFT)技術である。
しかし、微調整型マルチヘッド自己注意(MHA)の文脈では、LoRAはそれぞれの注意を個別に適応するために使われており、それによって異なる頭部にまたがる潜在的なシナジーを見越すことができる。
この問題を軽減するために,連合型ハイパーネットを用いて注目頭上で低ランク行列を生成する,新しいハイパーシェア型低ランク適応法(HoRA)を提案する。
共有ジェネレータを介してそれらの適応を結合することにより、HoRAはクロスヘッド情報共有を奨励し、上記のLoRAの制限に対処する。
LoRAとHoRAを比較することで, 後者が前者よりも優れた試料効率を達成できることが理論的に明らかとなった。
さらに,多種多様な言語および視覚ベンチマークの広範な実験を通じて,HoRAがLoRAや他のPEFT法より優れる一方で,トレーニング可能なパラメータの数が少ないことが実証された。
関連論文リスト
- Two Is Better Than One: Rotations Scale LoRAs [26.617019830475172]
Low-Rank Adaptation (LoRA)ベースのMixture-of-Experts (MoE)は、大規模言語モデル(LLM)が多様なタスクに効率的に適応できるようにする。
入力を最良の専門家にルーティングする従来のゲーティングメカニズムは、LLMのスケーラビリティを根本的に阻害する可能性がある。
本稿では,ロラス表現の回転操作を導入し,幾何学的に着想を得た新しいゲーティング手法であるRadarGateを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:22:43Z) - SRLoRA: Subspace Recomposition in Low-Rank Adaptation via Importance-Based Fusion and Reinitialization [2.594346658179846]
Low-Rank Adaptation (LoRA)は、固定された低ランク部分空間への更新を制約する。
本稿では,低ランク適応(SRLoRA)における部分空間再構成について,重要性に基づく融合と再初期化を用いて紹介する。
SRLoRAは標準のLoRAよりも高速な収束と精度の向上を実現している。
論文 参考訳(メタデータ) (2025-05-18T14:12:40Z) - A Stronger Mixture of Low-Rank Experts for Fine-Tuning Foundation Models [22.457766373989365]
Low-Rank Adapters (LoRA) は、命令チューニングやドメイン適応など、様々な分野に広く採用されている。
LoRAの限られた表現能力に対処するため、複数のLoRAアダプタを組み込むためのMixture-of-Expert (MoE)が導入されている。
マルチスペースプロジェクションによる特徴学習手順の安定化と向上を図るため,MoE-LoRAの新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-20T05:58:53Z) - BeamLoRA: Beam-Constraint Low-Rank Adaptation [51.52097743781401]
Low-Rank Adaptation (LoRA) はパラメータ効率の良い微調整法として広く採用されている。
本研究では,各LoRAモジュールを,各ランクが潜在的サブソリューションに対応するビームとして概念化するビームロラを提案する。
論文 参考訳(メタデータ) (2025-02-19T10:33:22Z) - RepLoRA: Reparameterizing Low-Rank Adaptation via the Perspective of Mixture of Experts [37.43961020113692]
Low-rank Adaptation (LoRA) は、大規模基盤モデルを微調整するための強力な手法として登場した。
本稿では,LoRAモデルとMixture of Expertsモデルとの関連性を検討することによって,ロラの理論解析を行う。
論文 参考訳(メタデータ) (2025-02-05T10:03:09Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。