Fugu-MT 論文翻訳(概要): Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT

論文の概要: Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT

arxiv url: http://arxiv.org/abs/2402.07440v2
Date: Wed, 14 Feb 2024 04:19:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 12:04:19.763328
Title: Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT
Title（参考訳）: LoCoとM2-BERTを用いた長期検索モデルのベンチマークと構築
Authors: Jon Saad-Falcon, Daniel Y. Fu, Simran Arora, Neel Guha, Christopher R\'e
Abstract要約: 検索パイプラインは、文書が長い(例えば10Kトークン以上)ドメインや、関連する文書を識別する場合は、テキスト全体にわたって情報を合成する必要がある。これらのドメインに適した長文検索エンコーダを開発する。 LoCoV1は,チャンキングが不可能か有効でない場合の長文検索のための新しい12タスクベンチマークである。次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
参考スコア（独自算出の注目度）: 24.19335869461116
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval pipelines-an integral component of many machine learning systems-perform poorly in domains where documents are long (e.g., 10K tokens or more) and where identifying the relevant document requires synthesizing information across the entire text. Developing long-context retrieval encoders suitable for these domains raises three challenges: (1) how to evaluate long-context retrieval performance, (2) how to pretrain a base language model to represent both short contexts (corresponding to queries) and long contexts (corresponding to documents), and (3) how to fine-tune this model for retrieval under the batch size limitations imposed by GPU memory constraints. To address these challenges, we first introduce LoCoV1, a novel 12 task benchmark constructed to measure long-context retrieval where chunking is not possible or not effective. We next present the M2-BERT retrieval encoder, an 80M parameter state-space encoder model built from the Monarch Mixer architecture, capable of scaling to documents up to 32K tokens long. We describe a pretraining data mixture which allows this encoder to process both short and long context sequences, and a finetuning approach that adapts this base model to retrieval with only single-sample batches. Finally, we validate the M2-BERT retrieval encoder on LoCoV1, finding that it outperforms competitive Transformer-based models by at least 23.3 points, despite containing upwards of 90x fewer parameters.
Abstract（参考訳）: 検索パイプラインは、多くの機械学習システムの不可欠なコンポーネントで、ドキュメントが長い(例えば10kトークンなど)ドメインや、関連するドキュメントを識別するには、テキスト全体にわたって情報を合成する必要がある。これらのドメインに適したロングコンテキスト検索エンコーダの開発には,(1)ロングコンテキスト検索性能の評価方法,(2)ショートコンテキスト(クエリ対応)とロングコンテキスト(ドキュメント対応)の両方を表現するベース言語モデルを事前トレーニングする方法,(3)gpuメモリ制約によって課されるバッチサイズ制限下での検索のためにこのモデルを微調整する方法,の3つの課題がある。これらの課題に対処するために,我々はまず,チャンキングが不可能あるいは有効でない長文検索のための新しい12タスクベンチマークであるLoCoV1を紹介する。次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。本稿では、このエンコーダが短いコンテキストシーケンスと長いコンテキストシーケンスの両方を処理できるプリトレーニングデータ混合と、このベースモデルを単一サンプルバッチのみで検索する微調整アプローチについて述べる。最後に,LoCoV1上のM2-BERT検索エンコーダを検証したところ,90倍のパラメータを含むにもかかわらず,競合するTransformerベースのモデルを少なくとも23.3ポイント上回っていることがわかった。

関連論文リスト

Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。 modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文参考訳（メタデータ） (2026-03-05T03:16:16Z)
Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-28T08:51:51Z)
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-08-03T23:59:31Z)
MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。 SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文参考訳（メタデータ） (2025-06-05T16:34:57Z)
Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文参考訳（メタデータ） (2024-10-25T06:08:59Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文参考訳（メタデータ） (2024-07-19T17:35:47Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Long-Context Language Modeling with Parallel Context Encoding [37.64884969997378]
既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。 CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。 CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
論文参考訳（メタデータ） (2024-02-26T14:47:35Z)
CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。 CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文参考訳（メタデータ） (2024-02-23T11:47:16Z)
LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-01-31T15:33:37Z)
Sparse, Dense, and Attentional Representations for Text Retrieval [25.670835450331943]
デュアルエンコーダは、文書やクエリを高密度な低次元ベクトルに符号化することで検索を行う。単語の疎結合モデルや注目ニューラルネットワークと比較して,このアーキテクチャのキャパシティについて検討する。本稿では,2重エンコーダの効率性と,よりコストのかかる注目アーキテクチャの表現性を結合した単純なニューラルモデルを提案する。
論文参考訳（メタデータ） (2020-05-01T02:21:17Z)
Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文参考訳（メタデータ） (2020-04-26T07:04:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。