論文の概要: TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree
- arxiv url: http://arxiv.org/abs/2506.10355v1
- Date: Thu, 12 Jun 2025 05:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.582533
- Title: TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree
- Title(参考訳): TreeLoRA:階層的な勾配-相似木でガイドされたレイヤワイズロラによる効率的な継続的学習
- Authors: Yu-Yang Qian, Yuan-Ze Xu, Zhen-Yu Zhang, Peng Zhao, Zhi-Hua Zhou,
- Abstract要約: 本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
- 参考スコア(独自算出の注目度): 52.44403214958304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications collect data in a streaming environment, where learning tasks are encountered sequentially. This necessitates continual learning (CL) to update models online, enabling adaptation to new tasks while preserving past knowledge to prevent catastrophic forgetting. Nowadays, with the flourish of large pre-trained models (LPMs), efficiency has become increasingly critical for CL, due to their substantial computational demands and growing parameter sizes. In this paper, we introduce TreeLoRA (K-D Tree of Low-Rank Adapters), a novel approach that constructs layer-wise adapters by leveraging hierarchical gradient similarity to enable efficient CL, particularly for LPMs. To reduce the computational burden of task similarity estimation, we employ bandit techniques to develop an algorithm based on lower confidence bounds to efficiently explore the task structure. Furthermore, we use sparse gradient updates to facilitate parameter optimization, making the approach better suited for LPMs. Theoretical analysis is provided to justify the rationale behind our approach, and experiments on both vision transformers (ViTs) and large language models (LLMs) demonstrate the effectiveness and efficiency of our approach across various domains, including vision and natural language processing tasks.
- Abstract(参考訳): 多くの現実世界のアプリケーションは、学習タスクが順次遭遇するストリーミング環境でデータを収集する。
これにより、連続学習(CL)がオンラインでモデルを更新し、過去の知識を保ちながら新しいタスクへの適応を可能にし、破滅的な忘れ込みを防ぐ必要がある。
近年,大規模事前学習モデル (LPM) の普及に伴い,計算量やパラメータサイズの増加により,効率性はCLにとってますます重要になっている。
本稿では,階層的な勾配の類似性を利用して階層型アダプタを構築する手法であるTreeLoRA(K-D Tree of Low-Rank Adapters)を紹介する。
タスク類似度推定の計算負担を軽減するため,より低い信頼度境界に基づくアルゴリズムを開発し,タスク構造を効率的に探索する。
さらに、パラメータ最適化を容易にするためにスパース勾配更新を用い、LPMに適したアプローチとした。
理論解析は,我々のアプローチの理論的根拠を正当化するために提供され,視覚変換器(ViT)と大規模言語モデル(LLM)の両方の実験により,視覚や自然言語処理タスクを含む様々な領域におけるアプローチの有効性と効率を実証する。
関連論文リスト
- C-LoRA: Continual Low-Rank Adaptation for Pre-trained Models [26.560293264523903]
Low-Rank Adaptation (LoRA) は、自然言語処理やコンピュータビジョンなどの分野で広く応用されている効率的な微調整手法である。
連続学習のためのLoRAの新たな拡張である連続低ランク適応(C-LoRA)を提案する。
C-LoRAは学習可能なルーティングマトリックスを使用して、タスク間のパラメータ更新を動的に管理する。
論文 参考訳(メタデータ) (2025-02-25T07:35:36Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Less is More: Towards Green Code Large Language Models via Unified Structural Pruning [27.428983811427827]
語彙, 層, フィードフォワードネットワーク(FFN)プルーニングを組み合わせた, 革新的な統一的構造解析手法であるFlap-Prunerを提案する。
その結果、Flap-Prunerはパラメータの22%をプルーニングした後、元のパフォーマンスの97%を維持し、トレーニング後と同じあるいはそれ以上のパフォーマンスを達成していることがわかった。
論文 参考訳(メタデータ) (2024-12-20T14:13:09Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。