論文の概要: Reversing Large Language Models for Efficient Training and Fine-Tuning
- arxiv url: http://arxiv.org/abs/2512.02056v2
- Date: Thu, 04 Dec 2025 02:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 14:54:32.859632
- Title: Reversing Large Language Models for Efficient Training and Fine-Tuning
- Title(参考訳): 効率的な訓練と微調整のための大規模言語モデルの逆転
- Authors: Eshed Gal, Moshe Eliasof, Javier Turek, Uri Ascher, Eran Treister, Eldad Haber,
- Abstract要約: 大きな言語モデル(LLM)は、高価で時間を要する訓練で知られている。
対称およびシンプレクティック微分方程式に着想を得たLLMのメモリ効率・可逆的アーキテクチャを提案する。
その結果、いくつかのデータセットとベンチマークで同等または改善されたパフォーマンスを示しました。
- 参考スコア(独自算出の注目度): 24.232966507637673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are known for their expensive and time-consuming training. Thus, oftentimes, LLMs are fine-tuned to address a specific task, given the pretrained weights of a pre-trained LLM considered a foundation model. In this work, we introduce memory-efficient, reversible architectures for LLMs, inspired by symmetric and symplectic differential equations, and investigate their theoretical properties. Different from standard, baseline architectures that store all intermediate activations, the proposed models use time-reversible dynamics to retrieve hidden states during backpropagation, relieving the need to store activations. This property allows for a drastic reduction in memory consumption, allowing for the processing of larger batch sizes for the same available memory, thereby offering improved throughput. In addition, we propose an efficient method for converting existing, non-reversible LLMs into reversible architectures through fine-tuning, rendering our approach practical for exploiting existing pre-trained models. Our results show comparable or improved performance on several datasets and benchmarks, on several LLMs, building a scalable and efficient path towards reducing the memory and computational costs associated with both training from scratch and fine-tuning of LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、高価で時間を要する訓練で知られている。
したがって、LLMは基礎モデルと見なされる事前訓練されたLLMの重量を考えると、特定のタスクに対処するために微調整されることが多い。
本研究では, 対称およびシンプレクティック微分方程式に着想を得て, LLMのメモリ効率, 可逆的アーキテクチャを導入し, その理論的性質について検討する。
全ての中間アクティベーションを格納する標準のベースラインアーキテクチャとは異なり、提案モデルはバックプロパゲーション中に隠された状態を取得するために時間可逆ダイナミクスを使用し、アクティベーションを格納する必要がなくなる。
この特性により、メモリ消費が大幅に削減され、同じ利用可能なメモリに対してより大きなバッチサイズの処理が可能となり、スループットが向上する。
さらに,既存の非可逆LPMを微調整により可逆的アーキテクチャに変換する効率的な手法を提案する。
以上の結果から,LLMのスクラッチと微調整の両方による学習に伴うメモリと計算コストの削減に向けた,スケーラブルで効率的な経路を構築するために,複数のLLMのデータセットやベンチマークで同等あるいは改善された性能を示す。
関連論文リスト
- MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文 参考訳(メタデータ) (2024-06-10T15:44:22Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。