Fugu-MT 論文翻訳(概要): Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs

論文の概要: Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs

arxiv url: http://arxiv.org/abs/2404.10308v1
Date: Tue, 16 Apr 2024 06:34:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 17:52:48.268070
Title: Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs
Title（参考訳）: 階層型コンテキストマージ: 事前学習されたLLMのためのより長いコンテキスト理解
Authors: Woomin Song, Seunghyuk Oh, Sangwoo Mo, Jaehyung Kim, Sukmin Yun, Jung-Woo Ha, Jinwoo Shin,
Abstract要約: 本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
参考スコア（独自算出の注目度）: 61.40047491337793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown remarkable performance in various natural language processing tasks. However, a primary constraint they face is the context limit, i.e., the maximum number of tokens they can process. Previous works have explored architectural changes and modifications in positional encoding to relax the constraint, but they often require expensive training or do not address the computational demands of self-attention. In this paper, we present Hierarchical cOntext MERging (HOMER), a new training-free scheme designed to overcome the limitations. HOMER uses a divide-and-conquer algorithm, dividing long inputs into manageable chunks. Each chunk is then processed collectively, employing a hierarchical strategy that merges adjacent chunks at progressive transformer layers. A token reduction technique precedes each merging, ensuring memory usage efficiency. We also propose an optimized computational order reducing the memory requirement to logarithmically scale with respect to input length, making it especially favorable for environments with tight memory restrictions. Our experiments demonstrate the proposed method's superior performance and memory efficiency, enabling the broader use of LLMs in contexts requiring extended context. Code is available at https://github.com/alinlab/HOMER.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。しかし、それらが直面する主な制約はコンテキスト制限、すなわち処理できるトークンの最大数である。以前の研究では、制約を緩和するために、アーキテクチャの変更や位置エンコーディングの変更について検討されてきたが、それらはしばしば高価なトレーニングを必要としたり、自己注意の計算的な要求に対処しなかった。本稿では,HOMER(Hierarchical cOntext MERging)を提案する。 HOMERは、長いインプットを管理可能なチャンクに分割する、分別・対数アルゴリズムを使用する。各チャンクは集合的に処理され、隣接するチャンクをプログレッシブトランスフォーマー層にマージする階層戦略が採用される。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。また、入力長に対してメモリ要求を対数的にスケールさせる最適化された計算順序を提案し、特にメモリ制限の厳しい環境において好適である。実験では,提案手法の優れた性能とメモリ効率を実証し,拡張コンテキストを必要とするコンテキストにおけるLLMの広範な利用を可能にした。コードはhttps://github.com/alinlab/HOMER.comで入手できる。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。 MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文参考訳（メタデータ） (2024-07-16T18:59:49Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (2024-06-26T08:44:36Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文参考訳（メタデータ） (2024-05-09T19:32:49Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。 InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-07T06:50:42Z)
Incremental Learning of Structured Memory via Closed-Loop Transcription [20.255633973040183]
本研究は、インクリメンタルな設定で複数のオブジェクトクラスの構造化記憶を学習するための最小限の計算モデルを提案する。本手法は,従来のインクリメンタルラーニング手法よりもシンプルで,モデルサイズ,ストレージ,計算の面でより効率的である。実験結果から,本手法は破滅的忘れを効果的に軽減し,生成的リプレイよりも高い性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-02-11T02:20:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。