論文の概要: In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs
Miss
- arxiv url: http://arxiv.org/abs/2402.10790v2
- Date: Wed, 21 Feb 2024 03:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 18:33:39.772305
- Title: In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs
Miss
- Title(参考訳): 11MのHaystackで針を探す: 繰り返し記憶でLLMが見逃しているものを見つける
- Authors: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom
Sorokin, Mikhail Burtsev
- Abstract要約: BABILongは、分散事実の抽出と処理におけるモデル機能を評価するために設計された新しいベンチマークである。
メモリ拡張を繰り返すGPT-2を微調整することで、最大で116ドルの要素を含むタスクを処理できる。
この成果は、これまでのニューラルネットワークモデルで処理された最も長い入力であるため、かなり飛躍的なものだ。
- 参考スコア(独自算出の注目度): 4.8384738694883955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of processing long documents using
generative transformer models. To evaluate different approaches, we introduce
BABILong, a new benchmark designed to assess model capabilities in extracting
and processing distributed facts within extensive texts. Our evaluation, which
includes benchmarks for GPT-4 and RAG, reveals that common methods are
effective only for sequences up to $10^4$ elements. In contrast, fine-tuning
GPT-2 with recurrent memory augmentations enables it to handle tasks involving
up to $11\times 10^6$ elements. This achievement marks a substantial leap, as
it is by far the longest input processed by any neural network model to date,
demonstrating a significant improvement in the processing capabilities for long
sequences.
- Abstract(参考訳): 本稿では,生成トランスモデルを用いた長文処理の課題に対処する。
異なるアプローチを評価するために、広範囲のテキスト中の分散事実を抽出・処理するモデルの能力を評価するために設計された新しいベンチマークであるbabilongを紹介する。
GPT-4とRAGのベンチマークを含む評価の結果,共通手法は最大10^4$の要素に対してのみ有効であることがわかった。
対照的に、繰り返しメモリを増強した微調整のGPT-2では、最大11ドルまでの10^6$要素を含むタスクを処理できる。
この成果は、これまでどのニューラルネットワークモデルでも処理された最も長い入力であり、長いシーケンスの処理能力が大幅に向上しているため、大きな飛躍である。
関連論文リスト
- Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - Abstractive Summarization as Augmentation for Document-Level Event
Detection [0.0]
文書レベルのイベント検出における浅層モデルと深層モデルのパフォーマンスギャップを,抽象的なテキスト要約を拡張手法として用いて橋渡しする。
テキスト生成には、ビームサーチ、トップkサンプリング、トップpサンプリング、コントラスト検索の4つの復号法を用いる。
以上の結果から,文書タイトルを使用すると,線形SVMとRoBERTaのマクロF1スコアが2.04%,3.19%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-29T11:28:26Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - MuLD: The Multitask Long Document Benchmark [4.835289158553091]
我々は1万以上のトークンからなる文書のみからなる新しい長期文書ベンチマークを示す。
文脈長の増大したモデルでは,課題の解決がより容易であることを示す。
論文 参考訳(メタデータ) (2022-02-15T12:42:55Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。