論文の概要: LongEmbed: Extending Embedding Models for Long Context Retrieval
- arxiv url: http://arxiv.org/abs/2404.12096v3
- Date: Thu, 07 Nov 2024 09:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:42.898125
- Title: LongEmbed: Extending Embedding Models for Long Context Retrieval
- Title(参考訳): LongEmbed:ロングコンテキスト検索のための埋め込みモデルの拡張
- Authors: Dawei Zhu, Liang Wang, Nan Yang, Yifan Song, Wenhao Wu, Furu Wei, Sujian Li,
- Abstract要約: 本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
- 参考スコア(独自算出の注目度): 87.60404151086715
- License:
- Abstract: Embedding models play a pivot role in modern NLP applications such as IR and RAG. While the context limit of LLMs has been pushed beyond 1 million tokens, embedding models are still confined to a narrow context window not exceeding 8k tokens, refrained from application scenarios requiring long inputs such as legal contracts. This paper explores context window extension of existing embedding models, pushing the limit to 32k without requiring additional training. First, we examine the performance of current embedding models for long context retrieval on our newly constructed LongEmbed benchmark. LongEmbed comprises two synthetic tasks and four carefully chosen real-world tasks, featuring documents of varying length and dispersed target information. Benchmarking results underscore huge room for improvement in these models. Based on this, comprehensive experiments show that training-free context window extension strategies like position interpolation can effectively extend the context window of existing embedding models by several folds, regardless of their original context being 512 or beyond 4k. Furthermore, for models employing absolute position encoding (APE), we show the possibility of further fine-tuning to harvest notable performance gains while strictly preserving original behavior for short inputs. For models using rotary position embedding (RoPE), significant enhancements are observed when employing RoPE-specific methods, such as NTK and SelfExtend, indicating RoPE's superiority over APE for context window extension. To facilitate future research, we release E5-Base-4k and E5-RoPE-Base, along with the LongEmbed benchmark.
- Abstract(参考訳): 埋め込みモデルは、IRやRAGのような現代のNLPアプリケーションにおいて重要な役割を果たす。
LLMのコンテキスト制限は100万トークンを超えているが、埋め込みモデルは8kトークンを超えない狭いコンテキストウインドウに制限されている。
本稿では、既存の埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせずに32kまで制限をプッシュする。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
LongEmbedは2つの合成タスクと4つの慎重に選択された現実世界タスクで構成され、様々な長さの文書と分散ターゲット情報を含んでいる。
ベンチマークの結果は、これらのモデルを改善するための大きな余地を浮き彫りにしている。
これに基づいて、総合的な実験により、位置補間のようなトレーニング不要なコンテキストウィンドウ拡張戦略が、元のコンテキストが512か4kを超えるかに関わらず、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
さらに、絶対位置符号化(APE)を用いたモデルでは、より詳細な微調整を行い、顕著な性能向上を得られる可能性を示し、短い入力に対して元の動作を厳密に保存する。
回転位置埋め込み(RoPE)を用いたモデルでは、NTKやSelfExtendといったRoPE固有の手法を用いることで、コンテキストウィンドウ拡張におけるAPEよりもRoPEの方が優れていることを示す。
今後の研究を容易にするため、LongEmbedベンチマークとともにE5-Base-4kとE5-RoPE-Baseをリリースする。
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Long-Context Language Modeling with Parallel Context Encoding [37.64884969997378]
既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。
CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。
CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-02-26T14:47:35Z) - LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [7.833740464264734]
現在の拡張コンテキストウィンドウは約128kトークンに制限されている。
LongRoPEは、事前訓練されたLLMのコンテキストウィンドウを2048kトークンに拡張する。
論文 参考訳(メタデータ) (2024-02-21T12:30:33Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - YaRN: Efficient Context Window Extension of Large Language Models [1.024113475677323]
RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。
本稿では,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高いYarnを提案する。
LLaMAモデルは,従来の事前学習が許すよりもはるかに長い文脈長を効果的に活用し,外挿することができることを示す。
論文 参考訳(メタデータ) (2023-08-31T18:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。