論文の概要: UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2406.18173v1
- Date: Wed, 26 Jun 2024 08:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:08:51.629986
- Title: UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs
- Title(参考訳): UIO-LLMs: 長期LLMの非バイアスインクリメンタル最適化
- Authors: Wenhao Li, Mingbao Lin, Yunshan Zhong, Shuicheng Yan, Rongrong Ji,
- Abstract要約: UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
- 参考スコア(独自算出の注目度): 111.12010207132204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing long texts is challenging for large language models (LLMs) due to limited context window sizes. This study introduces UIO-LLMs, an unbiased incremental optimization approach for memory-enhanced transformers under long-context settings. We initially conceptualize the process as a streamlined encoder-decoder framework where the weights-shared encoder and decoder respectively encapsulate a context segment into memories and leverage these memories to predict outputs of the subsequent segment. Subsequently, by treating our memory-enhanced transformers as fully-connected recurrent neural networks (RNNs), we refine the training process using the Truncated Backpropagation Through Time (TBPTT) algorithm, which incorporates innovative incremental optimization techniques. These techniques not only diminish time complexity but also address the bias in gradient computation through an unbiased optimization process. UIO-LLMs successfully handle long context, such as extending the context window of Llama2-7b-chat from 4K to 100K tokens with minimal 2% additional parameters, while keeping the inference cost nearly linear as context length increases.
- Abstract(参考訳): 長いテキストの管理は、コンテキストウィンドウのサイズが限られているため、大きな言語モデル(LLM)では難しい。
本研究は,長期環境下でのメモリ強化トランスフォーマーの非バイアスインクリメンタル最適化手法であるUIO-LLMを紹介する。
当初我々は,重み付きエンコーダとデコーダがそれぞれコンテキストセグメントを記憶にカプセル化し,これらのメモリを利用してその後のセグメントの出力を予測する,合理化エンコーダ・デコーダ・フレームワークとしてそのプロセスを概念化した。
その後、メモリ強化トランスフォーマーを完全連結リカレントニューラルネットワーク(RNN)として扱うことにより、革新的な漸進的最適化手法を取り入れたTruncated Backproagation Through Time(TBPTT)アルゴリズムを用いて、トレーニングプロセスを洗練する。
これらの手法は時間の複雑さを減少させるだけでなく、偏りのない最適化プロセスによる勾配計算のバイアスにも対処する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに最小2%の追加パラメータで拡張し、コンテキスト長が増加するにつれて推論コストをほぼ線形に保ちながら、長いコンテキストをうまく処理する。
関連論文リスト
- Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Scaling Transformer to 1M tokens and beyond with RMT [5.60052250541419]
変圧器によって解ける問題の範囲の広い大きな制限は、入力サイズによる計算複雑性の2次スケーリングである。
本研究では,入力コンテキスト長を線形にスケーリングしながら,事前学習したトランスフォーマーモデルの繰り返しメモリ拡張について検討する。
提案手法は,検索精度を高く保ちつつ,前例のない200万トークンのシーケンスの情報をメモリに格納できることを実証する。
論文 参考訳(メタデータ) (2023-04-19T16:18:54Z) - Neural Transducer Training: Reduced Memory Consumption with Sample-wise
Computation [5.355990925686149]
本稿では,トランスデューサの損失と勾配をサンプル毎に計算するメモリ効率のトレーニング手法を提案する。
提案手法は,メモリ使用量を大幅に削減し,デフォルトのバッチ処理に比べて競合速度で動作可能であることを示す。
その結果,1024のバッチサイズと40秒のオーディオ長のトランスデューサ損失と勾配を,わずか6GBのメモリで計算することができた。
論文 参考訳(メタデータ) (2022-11-29T14:57:23Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。