論文の概要: A Comprehensive Survey on Long Context Language Modeling
- arxiv url: http://arxiv.org/abs/2503.17407v1
- Date: Thu, 20 Mar 2025 17:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:59.110943
- Title: A Comprehensive Survey on Long Context Language Modeling
- Title(参考訳): 長期言語モデリングに関する包括的調査
- Authors: Jiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Chen, Hangyu Guo, Shilong Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zhejian Zhou, Ruijie Zhu, Junlan Feng, Yang Gao, Shizhu He, Zhoujun Li, Tianyu Liu, Fanyu Meng, Wenbo Su, Yingshui Tan, Zili Wang, Jian Yang, Wei Ye, Bo Zheng, Wangchunshu Zhou, Wenhao Huang, Sujian Li, Zhaoxiang Zhang,
- Abstract要約: Long Context Language Models (LCLM) は、広範囲な入力を効果的かつ効率的に処理し、分析する。
本調査は, LCLMの有効かつ効率的な利用方法, LCLMを効率的に訓練・展開する方法, LCLMを総合的に評価・分析する方法の3つの重要な側面から構成されている。
- 参考スコア(独自算出の注目度): 118.5540791080351
- License:
- Abstract: Efficient processing of long contexts has been a persistent pursuit in Natural Language Processing. With the growing number of long documents, dialogues, and other textual data, it is important to develop Long Context Language Models (LCLMs) that can process and analyze extensive inputs in an effective and efficient way. In this paper, we present a comprehensive survey on recent advances in long-context modeling for large language models. Our survey is structured around three key aspects: how to obtain effective and efficient LCLMs, how to train and deploy LCLMs efficiently, and how to evaluate and analyze LCLMs comprehensively. For the first aspect, we discuss data strategies, architectural designs, and workflow approaches oriented with long context processing. For the second aspect, we provide a detailed examination of the infrastructure required for LCLM training and inference. For the third aspect, we present evaluation paradigms for long-context comprehension and long-form generation, as well as behavioral analysis and mechanism interpretability of LCLMs. Beyond these three key aspects, we thoroughly explore the diverse application scenarios where existing LCLMs have been deployed and outline promising future development directions. This survey provides an up-to-date review of the literature on long-context LLMs, which we wish to serve as a valuable resource for both researchers and engineers. An associated GitHub repository collecting the latest papers and repos is available at: \href{https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling}{\color[RGB]{175,36,67}{LCLM-Horizon}}.
- Abstract(参考訳): 長い文脈の効率的な処理は自然言語処理において絶え間なく追求されてきた。
長い文書、対話、その他のテキストデータの増加に伴い、広範囲な入力を効果的かつ効率的に処理・分析できるLong Context Language Models (LCLM) を開発することが重要である。
本稿では,大規模言語モデルにおける長期コンテキストモデリングの最近の進歩に関する包括的調査を行う。
本調査は, LCLMの有効かつ効率的な利用方法, LCLMを効率的に訓練・展開する方法, LCLMを総合的に評価・分析する方法の3つの重要な側面から構成されている。
まず、長いコンテキスト処理を指向したデータ戦略、アーキテクチャ設計、ワークフローアプローチについて議論する。
第2の側面として、LCLMのトレーニングと推論に必要なインフラについて詳細に検討する。
第3の側面として、LCLMの動作解析と機構解釈性だけでなく、長文理解と長文生成のための評価パラダイムを提案する。
これら3つの重要な側面を超えて、既存のLCLMがデプロイされた多様なアプリケーションシナリオを徹底的に検討し、将来的な開発方向性を概説する。
この調査は、LLMに関する文献の最新のレビューを提供しており、研究者とエンジニアの両方にとって貴重なリソースとして役立てたいと考えています。
最新の論文とレポジトリを収集するGitHubリポジトリは、以下の通りである。 \href{https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling}{\color[RGB]{175,36,67}{LCLM-Horizon}}。
関連論文リスト
- LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
本稿では,マルチショットICLによる長文言語モデルの評価について検討する。
ICLタスクを共通サンプル学習(SSL)と全サンプル学習(ASL)の2つのグループに分類するメトリクスを開発する。
最先端のモデルではSSLタスクで64kトークンまでパフォーマンスが向上するが、ASLタスクで16kトークンしかなかったため、多くのモデルは大幅なパフォーマンス低下を経験している。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Large Language Models for Time Series: A Survey [34.24258745427964]
大規模言語モデル (LLM) は自然言語処理やコンピュータビジョンといった領域で広く利用されている。
LLMは、気候、IoT、ヘルスケア、トラフィック、オーディオ、ファイナンスといった分野の恩恵を受けながら、時系列データを分析する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-02T07:24:35Z) - Advancing Transformer Architecture in Long-Context Large Language
Models: A Comprehensive Survey [18.930417261395906]
トランスフォーマーベースの大規模言語モデル(LLM)は、知識ベース、ヒューマンインタフェース、動的エージェントなど様々な分野に適用されている。
本稿では,トランスフォーマーをベースとしたLLMアーキテクチャの最近の進歩について,LLMの長期的コンテキスト能力の向上を目的とした調査を行う。
論文 参考訳(メタデータ) (2023-11-21T04:59:17Z) - PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文 参考訳(メタデータ) (2023-05-23T23:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。