論文の概要: Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs
- arxiv url: http://arxiv.org/abs/2404.10308v1
- Date: Tue, 16 Apr 2024 06:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:52:48.268070
- Title: Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs
- Title(参考訳): 階層型コンテキストマージ: 事前学習されたLLMのためのより長いコンテキスト理解
- Authors: Woomin Song, Seunghyuk Oh, Sangwoo Mo, Jaehyung Kim, Sukmin Yun, Jung-Woo Ha, Jinwoo Shin,
- Abstract要約: 本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
- 参考スコア(独自算出の注目度): 61.40047491337793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable performance in various natural language processing tasks. However, a primary constraint they face is the context limit, i.e., the maximum number of tokens they can process. Previous works have explored architectural changes and modifications in positional encoding to relax the constraint, but they often require expensive training or do not address the computational demands of self-attention. In this paper, we present Hierarchical cOntext MERging (HOMER), a new training-free scheme designed to overcome the limitations. HOMER uses a divide-and-conquer algorithm, dividing long inputs into manageable chunks. Each chunk is then processed collectively, employing a hierarchical strategy that merges adjacent chunks at progressive transformer layers. A token reduction technique precedes each merging, ensuring memory usage efficiency. We also propose an optimized computational order reducing the memory requirement to logarithmically scale with respect to input length, making it especially favorable for environments with tight memory restrictions. Our experiments demonstrate the proposed method's superior performance and memory efficiency, enabling the broader use of LLMs in contexts requiring extended context. Code is available at https://github.com/alinlab/HOMER.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。
しかし、それらが直面する主な制約はコンテキスト制限、すなわち処理できるトークンの最大数である。
以前の研究では、制約を緩和するために、アーキテクチャの変更や位置エンコーディングの変更について検討されてきたが、それらはしばしば高価なトレーニングを必要としたり、自己注意の計算的な要求に対処しなかった。
本稿では,HOMER(Hierarchical cOntext MERging)を提案する。
HOMERは、長いインプットを管理可能なチャンクに分割する、分別・対数アルゴリズムを使用する。
各チャンクは集合的に処理され、隣接するチャンクをプログレッシブトランスフォーマー層にマージする階層戦略が採用される。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
また、入力長に対してメモリ要求を対数的にスケールさせる最適化された計算順序を提案し、特にメモリ制限の厳しい環境において好適である。
実験では,提案手法の優れた性能とメモリ効率を実証し,拡張コンテキストを必要とするコンテキストにおけるLLMの広範な利用を可能にした。
コードはhttps://github.com/alinlab/HOMER.comで入手できる。
関連論文リスト
- LLoCO: Learning Long Contexts Offline [63.3458260335454]
LLoCOは,LoRAを用いた文脈圧縮,検索,パラメータ効率の微調整を組み合わせた手法である。
我々は,LLoCOの長文質問応答データセットに対するアプローチを検証し,LLoCOが文脈内学習を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Not all Layers of LLMs are Necessary during Inference [68.88671495401483]
LLM(Large Language Models)の理想的な推論段階は、その能力を維持しながら少ない計算資源を利用できる。
本稿では,AdaInfer という単純なアルゴリズムを用いて,入力インスタンスを適応的に推定する手法を提案する。
実験によると、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを削減し、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive
Transformers [18.963110713461045]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Memory Safe Computations with XLA Compiler [14.510796427699459]
XLAコンパイラ拡張は、ユーザーが指定したメモリ制限に従ってアルゴリズムの表現を調整する。
我々は,k-アネレスト近傍およびスパースガウス過程回帰法が単一デバイス上ではるかに大きなスケールで実行可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T16:59:28Z) - Incremental Learning of Structured Memory via Closed-Loop Transcription [20.255633973040183]
本研究は、インクリメンタルな設定で複数のオブジェクトクラスの構造化記憶を学習するための最小限の計算モデルを提案する。
本手法は,従来のインクリメンタルラーニング手法よりもシンプルで,モデルサイズ,ストレージ,計算の面でより効率的である。
実験結果から,本手法は破滅的忘れを効果的に軽減し,生成的リプレイよりも高い性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-02-11T02:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。