論文の概要: Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long
Documents
- arxiv url: http://arxiv.org/abs/2310.19923v2
- Date: Tue, 2 Jan 2024 10:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 19:41:07.825944
- Title: Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long
Documents
- Title(参考訳): Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents
- Authors: Michael G\"unther, Jackmin Ong, Isabelle Mohr, Alaeddine Abdessalem,
Tanguy Abel, Mohammad Kalim Akram, Susana Guzman, Georgios Mastrapas, Saba
Sturua, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao
- Abstract要約: Jina Embeddings 2は、最大8192トークンを収容できるオープンソースのテキスト埋め込みモデルである。
Jina Embeddings 2は、様々な埋め込み関連タスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.684550938526876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embedding models have emerged as powerful tools for transforming
sentences into fixed-sized feature vectors that encapsulate semantic
information. While these models are essential for tasks like information
retrieval, semantic clustering, and text re-ranking, most existing open-source
models, especially those built on architectures like BERT, struggle to
represent lengthy documents and often resort to truncation. One common approach
to mitigate this challenge involves splitting documents into smaller paragraphs
for embedding. However, this strategy results in a much larger set of vectors,
consequently leading to increased memory consumption and computationally
intensive vector searches with elevated latency.
To address these challenges, we introduce Jina Embeddings 2, an open-source
text embedding model capable of accommodating up to 8192 tokens. This model is
designed to transcend the conventional 512-token limit and adeptly process long
documents. Jina Embeddings 2 not only achieves state-of-the-art performance on
a range of embedding-related tasks in the MTEB benchmark but also matches the
performance of OpenAI's proprietary ada-002 model. Additionally, our
experiments indicate that an extended context can enhance performance in tasks
such as NarrativeQA.
- Abstract(参考訳): テキスト埋め込みモデルは、文を意味情報をカプセル化する固定サイズの特徴ベクトルに変換する強力なツールとして登場した。
これらのモデルは、情報検索、セマンティッククラスタリング、テキストの再ランクといったタスクには不可欠ですが、既存のオープンソースモデル、特にBERTのようなアーキテクチャ上に構築されたモデルでは、長いドキュメントの表現に苦労し、しばしば切り詰められます。
この課題を緩和するための一般的なアプローチは、文書を埋め込むために小さな段落に分割することである。
しかし、この戦略によりベクトルの集合がより大きくなり、結果としてメモリ消費が増加し、計算集約的なベクトル探索がレイテンシが上昇する。
これらの課題に対処するため,我々は8192トークンまで対応可能なオープンソースのテキスト埋め込みモデルであるjina embeddeds 2を紹介する。
このモデルは,従来の512token制限を超越し,長文処理を行うように設計されている。
Jina Embeddings 2はMTEBベンチマークの様々な組み込み関連タスクにおける最先端のパフォーマンスを達成するだけでなく、OpenAIのプロプライエタリなada-002モデルのパフォーマンスと一致する。
さらに,この拡張コンテキストによって,narrativeqaなどのタスクのパフォーマンスが向上することを示す実験を行った。
関連論文リスト
- jina-embeddings-v3: Multilingual Embeddings With Task LoRA [6.926642162309072]
jina-embeddings-v3は5億7000万のパラメータを持つ新しいテキスト埋め込みモデルである。
多言語データと長文検索タスクで最先端のパフォーマンスを実現する。
最大8192トークンのコンテキスト長をサポートする。
論文 参考訳(メタデータ) (2024-09-16T11:10:29Z) - Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models [5.330795983408874]
遅延チャンキングと呼ばれる新しい手法を導入し、長いコンテキストの埋め込みモデルを利用して、まず長いテキストのトークンを埋め込む。
結果として得られたチャンク埋め込みは、コンテキスト情報を完全にキャプチャし、様々な検索タスクにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-09-07T03:54:46Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:48:06Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文 参考訳(メタデータ) (2023-06-12T03:28:33Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。