論文の概要: Thus Spake Long-Context Large Language Model
- arxiv url: http://arxiv.org/abs/2502.17129v1
- Date: Mon, 24 Feb 2025 13:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:10.927076
- Title: Thus Spake Long-Context Large Language Model
- Title(参考訳): したがって、長期大言語モデルを作成する。
- Authors: Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu,
- Abstract要約: ロングコンテキストは自然言語処理(NLP)において重要なトピックである
LLM(Large Language Models)は、LLMに人間に似た生涯学習の可能性を付与する大きな機会を提供する。
過去2年間で、LLMのコンテキスト長は数百万のトークンに対するブレークスルー拡張を達成した。
長文LLMの研究は、長さの外挿からアーキテクチャ、インフラ、トレーニング、評価技術への包括的焦点へと拡大した。
- 参考スコア(独自算出の注目度): 70.49178031298953
- License:
- Abstract: Long context is an important topic in Natural Language Processing (NLP), running through the development of NLP architectures, and offers immense opportunities for Large Language Models (LLMs) giving LLMs the lifelong learning potential akin to humans. Unfortunately, the pursuit of a long context is accompanied by numerous obstacles. Nevertheless, long context remains a core competitive advantage for LLMs. In the past two years, the context length of LLMs has achieved a breakthrough extension to millions of tokens. Moreover, the research on long-context LLMs has expanded from length extrapolation to a comprehensive focus on architecture, infrastructure, training, and evaluation technologies. Inspired by the symphonic poem, Thus Spake Zarathustra, we draw an analogy between the journey of extending the context of LLM and the attempts of humans to transcend its mortality. In this survey, We will illustrate how LLM struggles between the tremendous need for a longer context and its equal need to accept the fact that it is ultimately finite. To achieve this, we give a global picture of the lifecycle of long-context LLMs from four perspectives: architecture, infrastructure, training, and evaluation, showcasing the full spectrum of long-context technologies. At the end of this survey, we will present 10 unanswered questions currently faced by long-context LLMs. We hope this survey can serve as a systematic introduction to the research on long-context LLMs.
- Abstract(参考訳): ロングコンテキストは、自然言語処理(NLP)において重要なトピックであり、NLPアーキテクチャの開発を通じて実行され、LLMに人間に似た生涯学習の可能性を与える大規模言語モデル(LLM)にとって大きな機会を提供する。
残念ながら、長いコンテキストの追求には多くの障害が伴う。
それでも、長いコンテキストはLLMにとって重要な競争上の優位性である。
過去2年間で、LLMのコンテキスト長は数百万のトークンに対するブレークスルー拡張を達成した。
さらに、長文LLMの研究は、長さの外挿からアーキテクチャ、インフラ、トレーニング、評価技術への包括的焦点へと拡大した。
シンフォニック詩『So so Spake Zarathustra』に触発された私たちは、LLMの文脈を拡張しようとする旅と、その死を超越しようとする人間の試みの類似性を描いている。
この調査では、LLMがより長いコンテキストの必要性と、それが最終的に有限であるという事実を受け入れる必要性の間にいかに苦労しているかを説明します。
これを実現するために,アーキテクチャ,インフラストラクチャ,トレーニング,評価という4つの視点から,長文LLMのライフサイクルをグローバルに表現し,長文技術の全スペクトルを示す。
この調査の最後には、長文LLMが現在直面している10の未回答の質問を提示する。
長文LLMの研究の体系的な紹介として,本調査が役立てられることを願っている。
関連論文リスト
- ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。
現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。
本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文 参考訳(メタデータ) (2024-10-04T08:29:12Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。