論文の概要: ChunkWise LoRA: Adaptive Sequence Partitioning for Memory-Efficient Low-Rank Adaptation and Accelerated LLM Inference
- arxiv url: http://arxiv.org/abs/2601.21109v1
- Date: Wed, 28 Jan 2026 22:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.471961
- Title: ChunkWise LoRA: Adaptive Sequence Partitioning for Memory-Efficient Low-Rank Adaptation and Accelerated LLM Inference
- Title(参考訳): ChunkWise LoRA: メモリ効率のよい低ランク適応と高速化LDM推論のための適応シーケンス分割
- Authors: Ketan Thakkar, Maitreyi Chatterjee, Ramasubramanian Balasubramanian, Achyuthan Jootoo, Rajendra Ugrani,
- Abstract要約: ChunkWise LoRAはトークンの複雑さに基づいてシーケンスを可変長のチャンクに分割し、各チャンクに調整されたローランク構成を割り当てる。
Wikitext-103やSQuADのようなベンチマークデータセットの実験では、ChunkWise LoRAは最大で34%のレイテンシと38%のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 0.21064685964744576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in low-rank adaptation (LoRA) have enabled efficient fine-tuning of large language models (LLMs) with minimal additional parameters. However, existing LoRA methods apply static rank configurations uniformly across all input tokens, ignoring variation in token complexity and computational requirements. In this work, we propose ChunkWise LoRA, a dynamic and adaptive approach that partitions sequences into variable-length chunks based on token complexity and assigns each chunk a tailored low-rank configuration. Our system introduces a runtime scheduler that estimates token difficulty, performs adaptive chunking, and selects per-chunk LoRA rank and scaling using a rank-ladder mechanism. To preserve output consistency, we further introduce a boundary-safe composition module and integrate policy-driven KV-cache strategies. Experiments on benchmark datasets such as Wikitext-103 and SQuAD demonstrate that ChunkWise LoRA achieves up to 34\% lower latency and 38% memory reduction compared to baseline LoRA, while maintaining or improving task performance metrics like BLEU, EM, and perplexity. The proposed framework remains fully compatible with existing transformer architectures and inference frameworks, providing a practical solution for real-world deployment of parameter-efficient LLMs.
- Abstract(参考訳): ローランク適応(LoRA)の最近の進歩により、最小限の追加パラメータを持つ大規模言語モデル(LLM)の効率的な微調整が可能になった。
しかし、既存のLoRAメソッドは、トークンの複雑さと計算要求の変化を無視して、全ての入力トークンに均一に静的なランク設定を適用する。
そこで本研究では,トークンの複雑度に基づいて配列を可変長チャンクに分割し,各チャンクに調整した低ランク構成を割り当てる動的適応型アプローチであるChunkWise LoRAを提案する。
本システムでは,トークンの難易度を推定し,適応的なチャンキングを行い,ランクラダー機構を用いてランク毎のLoRAランクとスケーリングを選択するランタイムスケジューラを導入する。
出力の整合性を維持するため、我々はさらに境界セーフな合成モジュールを導入し、ポリシー駆動型KV-cache戦略を統合する。
Wikitext-103やSQuADのようなベンチマークデータセットの実験では、ChunkWise LoRAは、BLEU、EM、perplexityといったタスクパフォーマンスメトリクスをメンテナンスまたは改善しながら、ベースラインのLoRAと比較して最大34\%のレイテンシと38%のメモリ削減を実現している。
提案したフレームワークは、既存のトランスフォーマーアーキテクチャや推論フレームワークと完全に互換性があり、パラメータ効率の良いLLMを現実に展開するための実用的なソリューションを提供する。
関連論文リスト
- HyperAdaLoRA: Accelerating LoRA Rank Allocation During Training via Hypernetworks without Sacrificing Performance [27.391727025825546]
Low-Rank Adaptation (LoRA)は、大規模言語モデルを微調整するための有望なアプローチとして登場した。
本稿では,ハイパーネットワークを活用してAdaLoRAの収束を促進する新しいフレームワークであるHyperAdaLoRAを提案する。
本手法は性能を犠牲にすることなく高速な収束を実現する。
論文 参考訳(メタデータ) (2025-10-03T00:15:59Z) - HSplitLoRA: A Heterogeneous Split Parameter-Efficient Fine-Tuning Framework for Large Language Models [30.345920952847752]
大規模言語モデル(LLM)は、自然言語処理領域などに革命をもたらし、目覚ましいブレークスルーを達成した。
膨大なパラメータサイズのため、様々な下流タスクのためのプライベートデータでこれらのモデルを微調整することが主流になっている。
本研究では,分割学習(SL)と低ランク適応(LoRA)に基づくフレームワークであるHSplitLoRAを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:09:19Z) - PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - MSPLoRA: A Multi-Scale Pyramid Low-Rank Adaptation for Efficient Model Fine-Tuning [5.412348391086257]
我々は,グローバル共有ロラ,ミッドレベル共有ロラ,レイヤ特化ロラを導入して,グローバルパターン,中間レベル特徴,きめ細かい情報をキャプチャするMPPLoRAを提案する。
様々なNLPタスクの実験により、MPPLoRAはトレーニング可能なパラメータの数を著しく減らしながら、より効率的な適応とより良い性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T07:01:50Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - GeLoRA: Geometric Adaptive Ranks For Efficient LoRA Fine-tuning [2.7446241148152253]
微調整された大言語モデル(LLM)は、全てのパラメータを更新する必要があるため、計算集約的である。
Low-Rank Adaptation (LoRA)は、重みのサブセットだけを変更することで効率を向上するが、表現性と計算コストのトレードオフをもたらす。
隠れ状態表現の内在的次元を計算し,LoRAランクを適応的に選択する新しいフレームワークGeLoRAを提案する。
論文 参考訳(メタデータ) (2024-12-12T13:04:54Z) - LoRA-Mini : Adaptation Matrices Decomposition and Selective Training [2.0670689746336]
Low-Rank Adaptation (LoRA)は、トレーニング可能なパラメータの数を減らし、パラメータ効率の良い微調整を可能にする、有望なソリューションとして登場した。
低ランク行列を4つに分割することでパラメータ効率を向上させるLoRAを最適化したLoRA-Miniを提案する。
このアプローチは、標準のLoRAに匹敵するパフォーマンスレベルを維持しながら、トレーニング可能なパラメータの数に対して、標準のLoRAと比較して最大20倍の削減を実現している。
論文 参考訳(メタデータ) (2024-11-24T12:21:14Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。