論文の概要: Advancing Transformer Architecture in Long-Context Large Language
Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2311.12351v1
- Date: Tue, 21 Nov 2023 04:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:52:43.640847
- Title: Advancing Transformer Architecture in Long-Context Large Language
Models: A Comprehensive Survey
- Title(参考訳): 長期大言語モデルにおけるトランスフォーマーアーキテクチャの強化:包括的調査
- Authors: Yunpeng Huang, Jingwei Xu, Zixu Jiang, Junyu Lai, Zenan Li, Yuan Yao,
Taolue Chen, Lijuan Yang, Zhou Xin, Xiaoxing Ma
- Abstract要約: Transformer-based Large Language Models (LLMs)は、人工知能(AGI)への革命的な道を開いた。
リソースによって制約された現在のLLMの多くは、主に短いテキストで事前訓練されており、長文のプロンプトでは効果が低い。
本稿では,Transformer をベースとした LLM におけるモデルアーキテクチャの進歩に着目し,長期的コンテキスト能力の最適化を目的とした総合的な調査を行う。
- 参考スコア(独自算出の注目度): 17.357407254161437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the bomb ignited by ChatGPT, Transformer-based Large Language Models
(LLMs) have paved a revolutionary path toward Artificial General Intelligence
(AGI) and have been applied in diverse areas as knowledge bases, human
interfaces, and dynamic agents. However, a prevailing limitation exists: many
current LLMs, constrained by resources, are primarily pre-trained on shorter
texts, rendering them less effective for longer-context prompts, commonly
encountered in real-world settings. In this paper, we present a comprehensive
survey focusing on the advancement of model architecture in Transformer-based
LLMs to optimize long-context capabilities across all stages from pre-training
to inference. We firstly delineate and analyze the problems of handling
long-context input and output with the current Transformer-based models. Then,
we mainly offer a holistic taxonomy to navigate the landscape of Transformer
upgrades on architecture to solve these problems. Afterward, we provide the
investigation on wildly used evaluation necessities tailored for long-context
LLMs, including datasets, metrics, and baseline models, as well as some amazing
optimization toolkits like libraries, systems, and compilers to augment LLMs'
efficiency and efficacy across different stages. Finally, we further discuss
the predominant challenges and potential avenues for future research in this
domain. Additionally, we have established a repository where we curate relevant
literature with real-time updates at
https://github.com/Strivin0311/long-llms-learning.
- Abstract(参考訳): ChatGPTが発火した爆弾により、トランスフォーマーベースのLarge Language Models (LLMs) は人工知能(AGI)への革命的な道を歩み、知識基盤、ヒューマンインタフェース、動的エージェントとして様々な分野に適用されてきた。
リソースによって制約されている多くの現在のLLMは、主に短いテキストで事前訓練されており、現実の環境で一般的に見られる長文のプロンプトでは効果が低い。
本稿では,Transformer ベースの LLM におけるモデルアーキテクチャの進歩に着目し,事前学習から推論までの全段階にわたる長期コンテキスト機能を最適化する総合的な調査を行う。
まず,従来のTransformerモデルを用いて,長文入力と出力を処理する際の問題点を整理,解析する。
次に,アーキテクチャ上の変圧器アップグレードの展望をナビゲートし,これらの問題を解決するための包括的分類法を主に提供する。
その後、データセット、メトリクス、ベースラインモデル、ライブラリ、システム、コンパイラなどの驚くべき最適化ツールキットなど、LLMの様々な段階における効率と有効性を向上するために、長いコンテキストのLLM用に調整された、非常に有用な評価の必要性について調査する。
最後に,本領域における今後の研究の課題と可能性について論じる。
さらに私たちは,関連する文献をリアルタイムで更新するリポジトリをhttps://github.com/Strivin0311/long-llms-learningで構築しました。
関連論文リスト
- Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A~Case~Study~at~HCMUT [2.8000537365271367]
大規模言語モデル(LLM)は活発な研究トピックとして現れている。
LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処において課題に直面している。
本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T16:34:31Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - A Survey on Large Language Models from Concept to Implementation [4.219910716090213]
近年のLarge Language Models (LLM) の進歩により、自然言語処理(NLP)アプリケーションの範囲が拡大している。
本稿では,これらのモデルの多面的応用について検討し,GPTシリーズに着目した。
この調査は、コーディングや問題解決といった従来のタスクに革命をもたらす人工知能(AI)駆動ツールの変革的な影響に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-27T19:35:41Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Large Language Models Meet Computer Vision: A Brief Survey [0.0]
大規模言語モデル(LLM)とコンピュータビジョン(CV)は研究の重要な領域として現れ、人工知能(AI)分野において大きな進歩を遂げている。
この調査論文は、視覚変換器(ViT)とLLMに革命をもたらす可能性を強調しながら、トランスフォーマーの領域における最新の進歩を論じている。
調査は、この分野のオープンな方向性を強調し、将来の研究開発の場を示唆することで締めくくられる。
論文 参考訳(メタデータ) (2023-11-28T10:39:19Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、ITの一般的な方法論、ITデータセットの構築、ITモデルのトレーニング、異なるモダリティ、ドメイン、アプリケーションへのアプリケーションを含む、文献を体系的にレビューする。
また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Challenges and Opportunities of Using Transformer-Based Multi-Task
Learning in NLP Through ML Lifecycle: A Survey [0.6240603866868214]
MTL(Multi-Task Learning)は,共同学習による効率向上とパフォーマンス向上のための,有望なアプローチとして登場した。
本稿では,機械学習ライフサイクルの典型的な段階を通じて,MLLアプローチを使用する上での課題と機会について論じる。
MTLと継続学習の両方を扱えるモデルを持つことは現実的だと思います。
論文 参考訳(メタデータ) (2023-08-16T09:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。