論文の概要: The What, Why, and How of Context Length Extension Techniques in Large
Language Models -- A Detailed Survey
- arxiv url: http://arxiv.org/abs/2401.07872v1
- Date: Mon, 15 Jan 2024 18:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:09:55.442091
- Title: The What, Why, and How of Context Length Extension Techniques in Large
Language Models -- A Detailed Survey
- Title(参考訳): 大規模言語モデルにおける文脈長拡張技術は何、なぜ、どのようにして-詳細な調査
- Authors: Saurav Pawar, S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija
Jain, Aman Chadha, Amitava Das
- Abstract要約: 大規模言語モデル(LLM)の出現は、自然言語処理(NLP)における顕著なブレークスルーを表している。
本研究では,文脈長の延長に伴う固有の課題について検討し,研究者が採用した既存戦略の概要を整理した。
評価基準について,研究コミュニティ内に合意が存在するか検討し,さらに合意が必要な分野を特定する。
- 参考スコア(独自算出の注目度): 6.516561905186376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Large Language Models (LLMs) represents a notable breakthrough
in Natural Language Processing (NLP), contributing to substantial progress in
both text comprehension and generation. However, amidst these advancements, it
is noteworthy that LLMs often face a limitation in terms of context length
extrapolation. Understanding and extending the context length for LLMs is
crucial in enhancing their performance across various NLP applications. In this
survey paper, we delve into the multifaceted aspects of exploring why it is
essential, and the potential transformations that superior techniques could
bring to NLP applications. We study the inherent challenges associated with
extending context length and present an organized overview of the existing
strategies employed by researchers. Additionally, we discuss the intricacies of
evaluating context extension techniques and highlight the open challenges that
researchers face in this domain. Furthermore, we explore whether there is a
consensus within the research community regarding evaluation standards and
identify areas where further agreement is needed. This comprehensive survey
aims to serve as a valuable resource for researchers, guiding them through the
nuances of context length extension techniques and fostering discussions on
future advancements in this evolving field.
- Abstract(参考訳): 大規模言語モデル(llms)の出現は自然言語処理(nlp)における顕著なブレークスルーであり、テキスト理解と生成の両方においてかなりの進歩をもたらした。
しかし、これらの進歩の中で、LLMは文脈長の外挿の点でしばしば制限に直面している。
LLMのコンテキスト長の理解と拡張は、様々なNLPアプリケーション間での性能向上に不可欠である。
本稿では、なぜそれが必須か、そして優れた技術がNLPアプリケーションにもたらす潜在的な変換について、多面的側面を探求する。
本研究では,文脈長の延長に伴う固有の課題について検討し,研究者による既存戦略の概要を整理した。
さらに,コンテキスト拡張手法の評価の複雑さを議論し,この領域で研究者が直面するオープンな課題を強調する。
さらに,評価基準に関する研究コミュニティ内のコンセンサスが存在するか検討し,さらなる合意が必要な分野を特定する。
この包括的な調査は、研究者にとって貴重な資源となり、文脈長拡張技法のニュアンスを通じてそれらを指導し、進化するこの分野における今後の進歩に関する議論を促進することを目的としている。
関連論文リスト
- Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Exploring the landscape of large language models: Foundations, techniques, and challenges [8.042562891309414]
この記事では、コンテキスト内学習の力学と微調整アプローチのスペクトルについて光を当てている。
革新的な強化学習フレームワークを通じて、LLMが人間の好みとより緊密に連携する方法について検討する。
LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-18T08:01:20Z) - Privacy Preserving Prompt Engineering: A Survey [14.402638881376419]
事前学習された言語モデル(PLM)は、広範囲の自然言語処理(NLP)タスクを解くのに非常に有能である。
その結果、これらのモデルのサイズは近年顕著に拡大している。
プライバシーに関する懸念は、広く使われている中で大きな障害となっている。
論文 参考訳(メタデータ) (2024-04-09T04:11:25Z) - Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models [17.300251335326173]
大規模言語モデル(LLM)は、コンテキストの理解、論理的推論への関与、応答の生成など、優れた機能を示している。
本調査は,LLMの配列長を拡張するために考案された最近の手法と手法の包括的レビューを提供する。
論文 参考訳(メタデータ) (2024-02-03T19:20:02Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications [41.24492058141363]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた性能を示すが、時代遅れのデータやドメイン固有の制限から生じる問題の影響を受けやすい。
本稿では,手法,ベンチマーク,応用の分類など,知識モデルと大規模言語モデルの統合の動向を論じるレビューを提案する。
論文 参考訳(メタデータ) (2023-11-10T05:24:04Z) - A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Parsing Objects at a Finer Granularity: A Survey [54.72819146263311]
微細な視覚解析は、農業、リモートセンシング、宇宙技術など、多くの現実世界の応用において重要である。
卓越した研究努力は、異なるパラダイムに従って、これらのきめ細かいサブタスクに取り組む。
我々は,パート関係を学習する新たな視点から,先進的な研究を深く研究する。
論文 参考訳(メタデータ) (2022-12-28T04:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。