論文の概要: Benchmarking and Building Long-Context Retrieval Models with LoCo and
M2-BERT
- arxiv url: http://arxiv.org/abs/2402.07440v2
- Date: Wed, 14 Feb 2024 04:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 12:04:19.763328
- Title: Benchmarking and Building Long-Context Retrieval Models with LoCo and
M2-BERT
- Title(参考訳): LoCoとM2-BERTを用いた長期検索モデルのベンチマークと構築
- Authors: Jon Saad-Falcon, Daniel Y. Fu, Simran Arora, Neel Guha, Christopher
R\'e
- Abstract要約: 検索パイプラインは、文書が長い(例えば10Kトークン以上)ドメインや、関連する文書を識別する場合は、テキスト全体にわたって情報を合成する必要がある。
これらのドメインに適した長文検索エンコーダを開発する。
LoCoV1は,チャンキングが不可能か有効でない場合の長文検索のための新しい12タスクベンチマークである。
次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
- 参考スコア(独自算出の注目度): 24.19335869461116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval pipelines-an integral component of many machine learning
systems-perform poorly in domains where documents are long (e.g., 10K tokens or
more) and where identifying the relevant document requires synthesizing
information across the entire text. Developing long-context retrieval encoders
suitable for these domains raises three challenges: (1) how to evaluate
long-context retrieval performance, (2) how to pretrain a base language model
to represent both short contexts (corresponding to queries) and long contexts
(corresponding to documents), and (3) how to fine-tune this model for retrieval
under the batch size limitations imposed by GPU memory constraints. To address
these challenges, we first introduce LoCoV1, a novel 12 task benchmark
constructed to measure long-context retrieval where chunking is not possible or
not effective. We next present the M2-BERT retrieval encoder, an 80M parameter
state-space encoder model built from the Monarch Mixer architecture, capable of
scaling to documents up to 32K tokens long. We describe a pretraining data
mixture which allows this encoder to process both short and long context
sequences, and a finetuning approach that adapts this base model to retrieval
with only single-sample batches. Finally, we validate the M2-BERT retrieval
encoder on LoCoV1, finding that it outperforms competitive Transformer-based
models by at least 23.3 points, despite containing upwards of 90x fewer
parameters.
- Abstract(参考訳): 検索パイプラインは、多くの機械学習システムの不可欠なコンポーネントで、ドキュメントが長い(例えば10kトークンなど)ドメインや、関連するドキュメントを識別するには、テキスト全体にわたって情報を合成する必要がある。
これらのドメインに適したロングコンテキスト検索エンコーダの開発には,(1)ロングコンテキスト検索性能の評価方法,(2)ショートコンテキスト(クエリ対応)とロングコンテキスト(ドキュメント対応)の両方を表現するベース言語モデルを事前トレーニングする方法,(3)gpuメモリ制約によって課されるバッチサイズ制限下での検索のためにこのモデルを微調整する方法,の3つの課題がある。
これらの課題に対処するために,我々はまず,チャンキングが不可能あるいは有効でない長文検索のための新しい12タスクベンチマークであるLoCoV1を紹介する。
次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
本稿では、このエンコーダが短いコンテキストシーケンスと長いコンテキストシーケンスの両方を処理できるプリトレーニングデータ混合と、このベースモデルを単一サンプルバッチのみで検索する微調整アプローチについて述べる。
最後に,LoCoV1上のM2-BERT検索エンコーダを検証したところ,90倍のパラメータを含むにもかかわらず,競合するTransformerベースのモデルを少なくとも23.3ポイント上回っていることがわかった。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Long-Context Language Modeling with Parallel Context Encoding [42.31353408817697]
既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。
CEPEは小さなエンコーダを採用して長い入力チャンクをチャンク単位で処理し、凍結したデコーダはクロスアテンションを通じて追加のコンテキストを活用することができる。
CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-02-26T14:47:35Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Sparse, Dense, and Attentional Representations for Text Retrieval [25.670835450331943]
デュアルエンコーダは、文書やクエリを高密度な低次元ベクトルに符号化することで検索を行う。
単語の疎結合モデルや注目ニューラルネットワークと比較して,このアーキテクチャのキャパシティについて検討する。
本稿では,2重エンコーダの効率性と,よりコストのかかる注目アーキテクチャの表現性を結合した単純なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-05-01T02:21:17Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。