論文の概要: Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT
- arxiv url: http://arxiv.org/abs/2402.07440v3
- Date: Mon, 18 Nov 2024 01:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:55.658734
- Title: Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT
- Title(参考訳): LoCoとM2-BERTを用いた長期検索モデルのベンチマークと構築
- Authors: Jon Saad-Falcon, Daniel Y. Fu, Simran Arora, Neel Guha, Christopher Ré,
- Abstract要約: 検索パイプラインは、文書が長い(例えば10Kトークン以上)ドメインや、関連する文書を識別する場合は、テキスト全体にわたって情報を合成する必要がある。
これらのドメインに適した長文検索エンコーダを開発する。
LoCoV1は,チャンキングが不可能か有効でない場合の長文検索のための新しい12タスクベンチマークである。
次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
- 参考スコア(独自算出の注目度): 48.35407228760352
- License:
- Abstract: Retrieval pipelines-an integral component of many machine learning systems-perform poorly in domains where documents are long (e.g., 10K tokens or more) and where identifying the relevant document requires synthesizing information across the entire text. Developing long-context retrieval encoders suitable for these domains raises three challenges: (1) how to evaluate long-context retrieval performance, (2) how to pretrain a base language model to represent both short contexts (corresponding to queries) and long contexts (corresponding to documents), and (3) how to fine-tune this model for retrieval under the batch size limitations imposed by GPU memory constraints. To address these challenges, we first introduce LoCoV1, a novel 12 task benchmark constructed to measure long-context retrieval where chunking is not possible or not effective. We next present the M2-BERT retrieval encoder, an 80M parameter state-space encoder model built from the Monarch Mixer architecture, capable of scaling to documents up to 32K tokens long. We describe a pretraining data mixture which allows this encoder to process both short and long context sequences, and a finetuning approach that adapts this base model to retrieval with only single-sample batches. Finally, we validate the M2-BERT retrieval encoder on LoCoV1, finding that it outperforms competitive Transformer-based models by at least 23.3 points, despite containing upwards of 90x fewer parameters.
- Abstract(参考訳): 検索パイプライン(Retrieval Pipelines)は、多くの機械学習システムにおいて重要なコンポーネントである。ドキュメントが長い(例:10Kトークン以上)ドメインや、関連するドキュメントを識別する場合は、テキスト全体にわたって情報を合成する必要がある。
これらのドメインに適した長文検索エンコーダの開発には,(1)長文検索性能の評価方法,(2)短いコンテキスト(クエリに対応する)と長いコンテキスト(ドキュメントに対応する)の両方を表現するためのベース言語モデルを事前訓練する方法,(3)GPUメモリの制約によって課されるバッチサイズ制限の下で,このモデルを微調整する方法,の3つの課題がある。
これらの課題に対処するために,我々はまず,チャンキングが不可能あるいは有効でない長文検索のための新しい12タスクベンチマークであるLoCoV1を紹介する。
次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
我々は,このエンコーダが短コンテキストシーケンスと長コンテキストシーケンスの両方を処理できる事前学習データ混合物と,このベースモデルを単一サンプルバッチのみを用いて検索に適応させる微調整アプローチについて述べる。
最後に,LoCoV1上のM2-BERT検索エンコーダを検証したところ,90倍のパラメータを含むにもかかわらず,競合するTransformerベースのモデルを少なくとも23.3ポイント上回っていることがわかった。
関連論文リスト
- Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Long-Context Language Modeling with Parallel Context Encoding [37.64884969997378]
既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。
CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。
CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-02-26T14:47:35Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Sparse, Dense, and Attentional Representations for Text Retrieval [25.670835450331943]
デュアルエンコーダは、文書やクエリを高密度な低次元ベクトルに符号化することで検索を行う。
単語の疎結合モデルや注目ニューラルネットワークと比較して,このアーキテクチャのキャパシティについて検討する。
本稿では,2重エンコーダの効率性と,よりコストのかかる注目アーキテクチャの表現性を結合した単純なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-05-01T02:21:17Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。