Fugu-MT 論文翻訳(概要): UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs

論文の概要: UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs

arxiv url: http://arxiv.org/abs/2406.18173v1
Date: Wed, 26 Jun 2024 08:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 14:08:51.629986
Title: UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs
Title（参考訳）: UIO-LLMs: 長期LLMの非バイアスインクリメンタル最適化
Authors: Wenhao Li, Mingbao Lin, Yunshan Zhong, Shuicheng Yan, Rongrong Ji,
Abstract要約: UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
参考スコア（独自算出の注目度）: 111.12010207132204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Managing long texts is challenging for large language models (LLMs) due to limited context window sizes. This study introduces UIO-LLMs, an unbiased incremental optimization approach for memory-enhanced transformers under long-context settings. We initially conceptualize the process as a streamlined encoder-decoder framework where the weights-shared encoder and decoder respectively encapsulate a context segment into memories and leverage these memories to predict outputs of the subsequent segment. Subsequently, by treating our memory-enhanced transformers as fully-connected recurrent neural networks (RNNs), we refine the training process using the Truncated Backpropagation Through Time (TBPTT) algorithm, which incorporates innovative incremental optimization techniques. These techniques not only diminish time complexity but also address the bias in gradient computation through an unbiased optimization process. UIO-LLMs successfully handle long context, such as extending the context window of Llama2-7b-chat from 4K to 100K tokens with minimal 2% additional parameters, while keeping the inference cost nearly linear as context length increases.
Abstract（参考訳）: 長いテキストの管理は、コンテキストウィンドウのサイズが限られているため、大きな言語モデル(LLM)では難しい。本研究は,長期環境下でのメモリ強化トランスフォーマーの非バイアスインクリメンタル最適化手法であるUIO-LLMを紹介する。当初我々は,重み付きエンコーダとデコーダがそれぞれコンテキストセグメントを記憶にカプセル化し,これらのメモリを利用してその後のセグメントの出力を予測する,合理化エンコーダ・デコーダ・フレームワークとしてそのプロセスを概念化した。その後、メモリ強化トランスフォーマーを完全連結リカレントニューラルネットワーク(RNN)として扱うことにより、革新的な漸進的最適化手法を取り入れたTruncated Backproagation Through Time(TBPTT)アルゴリズムを用いて、トレーニングプロセスを洗練する。これらの手法は時間の複雑さを減少させるだけでなく、偏りのない最適化プロセスによる勾配計算のバイアスにも対処する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに最小2%の追加パラメータで拡張し、コンテキスト長が増加するにつれて推論コストをほぼ線形に保ちながら、長いコンテキストをうまく処理する。

関連論文リスト

TNT: Improving Chunkwise Training for Test-Time Memorization [62.78875147721906]
タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。 TNTは,2段階のプロセスを通じて,推論性能からトレーニング効率を分離する,新たなトレーニングパラダイムである。 TNTはトレーニング速度を最も正確なベースライン構成の17倍に高速化する。
論文参考訳（メタデータ） (2025-11-10T17:45:09Z)
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling [59.088798018184235]
textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。 RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
論文参考訳（メタデータ） (2025-10-23T04:45:09Z)
Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation [57.310236384112834]
In-context Learning (ICL) は、大規模言語モデル(LLM)において重要であるが、その有効性は有限コンテキストウィンドウによって制約される。本稿では,LLMにおけるコンテキストとパラメータを,短期記憶と長期記憶に並列化するフレームワークであるInfiniteICLを紹介する。提案手法は,コンテキスト長を90%削減し,フルコンテキストプロンプトの平均性能を103%向上することを示した。
論文参考訳（メタデータ） (2025-04-02T13:15:44Z)
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文参考訳（メタデータ） (2024-10-13T12:47:37Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Scaling Transformer to 1M tokens and beyond with RMT [5.60052250541419]
変圧器によって解ける問題の範囲の広い大きな制限は、入力サイズによる計算複雑性の2次スケーリングである。本研究では,入力コンテキスト長を線形にスケーリングしながら,事前学習したトランスフォーマーモデルの繰り返しメモリ拡張について検討する。提案手法は,検索精度を高く保ちつつ,前例のない200万トークンのシーケンスの情報をメモリに格納できることを実証する。
論文参考訳（メタデータ） (2023-04-19T16:18:54Z)
Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation [5.355990925686149]
本稿では,トランスデューサの損失と勾配をサンプル毎に計算するメモリ効率のトレーニング手法を提案する。提案手法は,メモリ使用量を大幅に削減し,デフォルトのバッチ処理に比べて競合速度で動作可能であることを示す。その結果,1024のバッチサイズと40秒のオーディオ長のトランスデューサ損失と勾配を,わずか6GBのメモリで計算することができた。
論文参考訳（メタデータ） (2022-11-29T14:57:23Z)
A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文参考訳（メタデータ） (2022-08-24T15:02:11Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。