Fugu-MT 論文翻訳(概要): Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

論文の概要: Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

arxiv url: http://arxiv.org/abs/2311.12351v2
Date: Fri, 23 Feb 2024 19:22:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 18:59:49.275155
Title: Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey
Title（参考訳）: 長期大言語モデルにおけるトランスフォーマーアーキテクチャの強化:包括的調査
Authors: Yunpeng Huang, Jingwei Xu, Junyu Lai, Zixu Jiang, Taolue Chen, Zenan Li, Yuan Yao, Xiaoxing Ma, Lijuan Yang, Hao Chen, Shupeng Li, Penghao Zhao
Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は、知識ベース、ヒューマンインタフェース、動的エージェントなど様々な分野に適用されている。本稿では,トランスフォーマーをベースとしたLLMアーキテクチャの最近の進歩について,LLMの長期的コンテキスト能力の向上を目的とした調査を行う。
参考スコア（独自算出の注目度）: 18.930417261395906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based Large Language Models (LLMs) have been applied in diverse areas such as knowledge bases, human interfaces, and dynamic agents, and marking a stride towards achieving Artificial General Intelligence (AGI). However, current LLMs are predominantly pretrained on short text snippets, which compromises their effectiveness in processing the long-context prompts that are frequently encountered in practical scenarios. This article offers a comprehensive survey of the recent advancement in Transformer-based LLM architectures aimed at enhancing the long-context capabilities of LLMs throughout the entire model lifecycle, from pre-training through to inference. We first delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. We then provide a taxonomy and the landscape of upgrades on Transformer architecture to solve these problems. Afterwards, we provide an investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as optimization toolkits such as libraries, frameworks, and compilers to boost the efficacy of LLMs across different stages in runtime. Finally, we discuss the challenges and potential avenues for future research. A curated repository of relevant literature, continuously updated, is available at https://github.com/Strivin0311/long-llms-learning.
Abstract（参考訳）: トランスフォーマーベースの大規模言語モデル(LLM)は、知識ベース、ヒューマンインタフェース、動的エージェントなど様々な分野に適用され、人工知能(AGI)の実現に向けた一歩を踏み出した。しかし、現在のLLMは主に短いテキストスニペットで事前訓練されており、現実的なシナリオで頻繁に遭遇する長文プロンプトの処理の有効性を損なう。本稿では,トランスフォーマーに基づくLLMアーキテクチャの最近の進歩について,モデルライフサイクル全体を通じて,事前学習から推論まで,LLMの長期コンテキスト能力の向上を目的とした総合的な調査を行う。我々はまず,現在の Transformer モデルを用いて,長文入力と出力を扱う際の問題を記述し,解析する。次に、これらの問題を解決するためにTransformerアーキテクチャの分類とアップグレードの展望を提供する。その後、データセット、メトリクス、ベースラインモデル、ライブラリ、フレームワーク、コンパイラなどの最適化ツールキットなど、ロングコンテキストllm用に調整された多用な評価の必要性について調査を行い、実行時のさまざまなステージにおけるllmの有効性を高める。最後に,今後の研究の課題と可能性について論じる。関連文献のキュレートされたリポジトリは、継続的に更新され、https://github.com/Strivin0311/long-llms-learningで入手できる。

関連論文リスト

Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文参考訳（メタデータ） (2025-06-06T04:07:55Z)
Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大規模言語モデル(LLM)の出現は機械翻訳(MT)の景観を大きく変えた。我々は、アンダーリソース設定への効果的な適応を可能にする、少数ショットプロンプト、クロスランガル転送、パラメータ効率の微調整などの手法を解析する。幻覚, 評価の不整合, 遺伝バイアスなどの持続的課題について検討するとともに, 翻訳品質向上のためのLCM駆動メトリクスの評価を行った。
論文参考訳（メタデータ） (2025-04-02T17:26:40Z)
A Comprehensive Survey on Long Context Language Modeling [118.5540791080351]
Long Context Language Models (LCLM) は、広範囲な入力を効果的かつ効率的に処理し、分析する。本調査は, LCLMの有効かつ効率的な利用方法, LCLMを効率的に訓練・展開する方法, LCLMを総合的に評価・分析する方法の3つの重要な側面から構成されている。
論文参考訳（メタデータ） (2025-03-20T17:06:28Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。本調査は,LLMの最近の進歩を概観する。
論文参考訳（メタデータ） (2024-12-04T11:14:06Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文参考訳（メタデータ） (2024-08-22T08:16:07Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A Case Study at HCMUT [2.8000537365271367]
大規模言語モデル(LLM)は活発な研究トピックとして現れている。 LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処において課題に直面している。本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。
論文参考訳（メタデータ） (2024-04-14T16:34:31Z)
A Review of Multi-Modal Large Language and Vision Models [1.9685736810241874]
大規模言語モデル(LLM)が研究と応用の焦点として登場した。近年、LLMはマルチモーダル大言語モデル(MM-LLM)に拡張されている。本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。
論文参考訳（メタデータ） (2024-03-28T15:53:45Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (2024-02-02T12:34:09Z)
Large Language Models Meet Computer Vision: A Brief Survey [0.0]
大規模言語モデル(LLM)とコンピュータビジョン(CV)は研究の重要な領域として現れ、人工知能(AI)分野において大きな進歩を遂げている。この調査論文は、視覚変換器(ViT)とLLMに革命をもたらす可能性を強調しながら、トランスフォーマーの領域における最新の進歩を論じている。調査は、この分野のオープンな方向性を強調し、将来の研究開発の場を示唆することで締めくくられる。
論文参考訳（メタデータ） (2023-11-28T10:39:19Z)
Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文参考訳（メタデータ） (2023-11-14T14:02:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。