論文の概要: Advancing Transformer Architecture in Long-Context Large Language
Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2311.12351v1
- Date: Tue, 21 Nov 2023 04:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:52:43.640847
- Title: Advancing Transformer Architecture in Long-Context Large Language
Models: A Comprehensive Survey
- Title(参考訳): 長期大言語モデルにおけるトランスフォーマーアーキテクチャの強化:包括的調査
- Authors: Yunpeng Huang, Jingwei Xu, Zixu Jiang, Junyu Lai, Zenan Li, Yuan Yao,
Taolue Chen, Lijuan Yang, Zhou Xin, Xiaoxing Ma
- Abstract要約: Transformer-based Large Language Models (LLMs)は、人工知能(AGI)への革命的な道を開いた。
リソースによって制約された現在のLLMの多くは、主に短いテキストで事前訓練されており、長文のプロンプトでは効果が低い。
本稿では,Transformer をベースとした LLM におけるモデルアーキテクチャの進歩に着目し,長期的コンテキスト能力の最適化を目的とした総合的な調査を行う。
- 参考スコア(独自算出の注目度): 17.357407254161437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the bomb ignited by ChatGPT, Transformer-based Large Language Models
(LLMs) have paved a revolutionary path toward Artificial General Intelligence
(AGI) and have been applied in diverse areas as knowledge bases, human
interfaces, and dynamic agents. However, a prevailing limitation exists: many
current LLMs, constrained by resources, are primarily pre-trained on shorter
texts, rendering them less effective for longer-context prompts, commonly
encountered in real-world settings. In this paper, we present a comprehensive
survey focusing on the advancement of model architecture in Transformer-based
LLMs to optimize long-context capabilities across all stages from pre-training
to inference. We firstly delineate and analyze the problems of handling
long-context input and output with the current Transformer-based models. Then,
we mainly offer a holistic taxonomy to navigate the landscape of Transformer
upgrades on architecture to solve these problems. Afterward, we provide the
investigation on wildly used evaluation necessities tailored for long-context
LLMs, including datasets, metrics, and baseline models, as well as some amazing
optimization toolkits like libraries, systems, and compilers to augment LLMs'
efficiency and efficacy across different stages. Finally, we further discuss
the predominant challenges and potential avenues for future research in this
domain. Additionally, we have established a repository where we curate relevant
literature with real-time updates at
https://github.com/Strivin0311/long-llms-learning.
- Abstract(参考訳): ChatGPTが発火した爆弾により、トランスフォーマーベースのLarge Language Models (LLMs) は人工知能(AGI)への革命的な道を歩み、知識基盤、ヒューマンインタフェース、動的エージェントとして様々な分野に適用されてきた。
リソースによって制約されている多くの現在のLLMは、主に短いテキストで事前訓練されており、現実の環境で一般的に見られる長文のプロンプトでは効果が低い。
本稿では,Transformer ベースの LLM におけるモデルアーキテクチャの進歩に着目し,事前学習から推論までの全段階にわたる長期コンテキスト機能を最適化する総合的な調査を行う。
まず,従来のTransformerモデルを用いて,長文入力と出力を処理する際の問題点を整理,解析する。
次に,アーキテクチャ上の変圧器アップグレードの展望をナビゲートし,これらの問題を解決するための包括的分類法を主に提供する。
その後、データセット、メトリクス、ベースラインモデル、ライブラリ、システム、コンパイラなどの驚くべき最適化ツールキットなど、LLMの様々な段階における効率と有効性を向上するために、長いコンテキストのLLM用に調整された、非常に有用な評価の必要性について調査する。
最後に,本領域における今後の研究の課題と可能性について論じる。
さらに私たちは,関連する文献をリアルタイムで更新するリポジトリをhttps://github.com/Strivin0311/long-llms-learningで構築しました。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。
近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文 参考訳(メタデータ) (2024-08-22T08:16:07Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A Case Study at HCMUT [2.8000537365271367]
大規模言語モデル(LLM)は活発な研究トピックとして現れている。
LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処において課題に直面している。
本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T16:34:31Z) - A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。
近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。
本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文 参考訳(メタデータ) (2024-03-28T15:53:45Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Large Language Models Meet Computer Vision: A Brief Survey [0.0]
大規模言語モデル(LLM)とコンピュータビジョン(CV)は研究の重要な領域として現れ、人工知能(AI)分野において大きな進歩を遂げている。
この調査論文は、視覚変換器(ViT)とLLMに革命をもたらす可能性を強調しながら、トランスフォーマーの領域における最新の進歩を論じている。
調査は、この分野のオープンな方向性を強調し、将来の研究開発の場を示唆することで締めくくられる。
論文 参考訳(メタデータ) (2023-11-28T10:39:19Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。