Fugu-MT 論文翻訳(概要): Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models

論文の概要: Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models

arxiv url: http://arxiv.org/abs/2402.02244v3
Date: Wed, 29 May 2024 13:38:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 23:40:54.808445
Title: Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models
Title（参考訳）: 限界を超えて:大規模言語モデルにおける文脈長を拡張する手法の調査
Authors: Xindi Wang, Mahsa Salmani, Parsa Omidi, Xiangyu Ren, Mehdi Rezagholizadeh, Armaghan Eshaghi,
Abstract要約: 大規模言語モデル(LLM)は、コンテキストの理解、論理的推論への関与、応答の生成など、優れた機能を示している。本調査は,LLMの配列長を拡張するために考案された最近の手法と手法の包括的レビューを提供する。
参考スコア（独自算出の注目度）: 17.300251335326173
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, large language models (LLMs) have shown remarkable capabilities including understanding context, engaging in logical reasoning, and generating responses. However, this is achieved at the expense of stringent computational and memory requirements, hindering their ability to effectively support long input sequences. This survey provides an inclusive review of the recent techniques and methods devised to extend the sequence length in LLMs, thereby enhancing their capacity for long-context understanding. In particular, we review and categorize a wide range of techniques including architectural modifications, such as modified positional encoding and altered attention mechanisms, which are designed to enhance the processing of longer sequences while avoiding a proportional increase in computational requirements. The diverse methodologies investigated in this study can be leveraged across different phases of LLMs, i.e., training, fine-tuning and inference. This enables LLMs to efficiently process extended sequences. The limitations of the current methodologies is discussed in the last section along with the suggestions for future research directions, underscoring the importance of sequence length in the continued advancement of LLMs.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) は,文脈理解,論理的推論への関与,応答の生成など,顕著な能力を示している。しかし、これは厳密な計算とメモリの要求を犠牲にして達成され、長い入力シーケンスを効果的にサポートする能力を妨げる。本調査は,LLMのシーケンス長を延長するために考案された最近の手法と手法を包括的にレビューし,長文理解の能力を高めるものである。特に、計算要求の比例的な増加を回避しつつ、より長いシーケンスの処理を強化するために設計された、修正された位置符号化や変更された注意機構などのアーキテクチャ変更を含む幅広い手法をレビューし、分類する。本研究で検討した多種多様な手法は, LLMの異なる位相,すなわちトレーニング, 微調整, 推論に利用することができる。これにより、LLMは拡張シーケンスを効率的に処理できる。今後の研究の方向性を示唆する上で,LLMの継続的な進歩におけるシーケンス長の重要性を浮き彫りにした上で,現行の方法論の限界について論じる。

関連論文リスト

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
Large Language Models in Argument Mining: A Survey [15.041650203089057]
Argument Mining (AM) はテキストから議論的構造を抽出することに焦点を当てている。 LLM(Large Language Models)の出現は、AMを大きく変化させ、高度な文脈内学習を可能にした。本研究は, LLM駆動型AMの最近の進歩を体系的に合成する。
論文参考訳（メタデータ） (2025-06-19T15:12:58Z)
SEAL: Scaling to Emphasize Attention for Long-Context Retrieval [8.805524738976075]
我々は、長期文脈検索(SEAL)における注意を強調するためのスケーリングと呼ばれる新しいアプローチを導入する。我々は、特定の注意ヘッドが長文検索と密接に結びついていることを観察し、検索スコアと正あるいは負の相関を示す。本稿では、これらのヘッドを強調するために生成されたデータを活用する学習ベースのメカニズムを提案する。
論文参考訳（メタデータ） (2025-01-25T14:09:39Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
Retrieval Meets Reasoning: Dynamic In-Context Editing for Long-Text Understanding [11.5386284281652]
動的インテキスト編集による情報検索を再現する新しい手法を提案する。長大な文脈を拡張可能な外部知識として扱うことにより,本手法は対話的に関連情報を収集・統合する。実験結果から,提案手法はコンテキスト限定LLMを効果的に活用し,マルチホップ推論に有効であることを示す。
論文参考訳（メタデータ） (2024-06-18T06:54:28Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。 InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-07T06:50:42Z)
Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文参考訳（メタデータ） (2024-02-02T06:29:34Z)
The What, Why, and How of Context Length Extension Techniques in Large Language Models -- A Detailed Survey [6.516561905186376]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)における顕著なブレークスルーを表している。本研究では,文脈長の延長に伴う固有の課題について検討し,研究者が採用した既存戦略の概要を整理した。評価基準について,研究コミュニティ内に合意が存在するか検討し,さらに合意が必要な分野を特定する。
論文参考訳（メタデータ） (2024-01-15T18:07:21Z)
The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文参考訳（メタデータ） (2023-12-01T16:00:25Z)
GrowLength: Accelerating LLMs Pretraining by Progressively Growing Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文参考訳（メタデータ） (2023-10-01T05:25:24Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [11.845239346943067]
パラメータ効率のよい微調整(PEFT)は、大規模言語モデル(LLM)をタスク固有のデータに効率的に専門化するための有望なアプローチである。本研究は,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を明らかにする。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。