論文の概要: Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long
Documents
- arxiv url: http://arxiv.org/abs/2310.19923v4
- Date: Sun, 4 Feb 2024 11:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:16:19.755677
- Title: Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long
Documents
- Title(参考訳): Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents
- Authors: Michael G\"unther, Jackmin Ong, Isabelle Mohr, Alaeddine Abdessalem,
Tanguy Abel, Mohammad Kalim Akram, Susana Guzman, Georgios Mastrapas, Saba
Sturua, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao
- Abstract要約: Jina Embeddings 2は、最大8192トークンを収容できるオープンソースのテキスト埋め込みモデルである。
Jina Embeddings 2は、様々な埋め込み関連タスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.684550938526876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embedding models have emerged as powerful tools for transforming
sentences into fixed-sized feature vectors that encapsulate semantic
information. While these models are essential for tasks like information
retrieval, semantic clustering, and text re-ranking, most existing open-source
models, especially those built on architectures like BERT, struggle to
represent lengthy documents and often resort to truncation. One common approach
to mitigate this challenge involves splitting documents into smaller paragraphs
for embedding. However, this strategy results in a much larger set of vectors,
consequently leading to increased memory consumption and computationally
intensive vector searches with elevated latency.
To address these challenges, we introduce Jina Embeddings 2, an open-source
text embedding model capable of accommodating up to 8192 tokens. This model is
designed to transcend the conventional 512-token limit and adeptly process long
documents. Jina Embeddings 2 not only achieves state-of-the-art performance on
a range of embedding-related tasks in the MTEB benchmark but also matches the
performance of OpenAI's proprietary ada-002 model. Additionally, our
experiments indicate that an extended context can enhance performance in tasks
such as NarrativeQA.
- Abstract(参考訳): テキスト埋め込みモデルは、文を意味情報をカプセル化する固定サイズの特徴ベクトルに変換する強力なツールとして登場した。
これらのモデルは、情報検索、セマンティッククラスタリング、テキストの再ランクといったタスクには不可欠ですが、既存のオープンソースモデル、特にBERTのようなアーキテクチャ上に構築されたモデルでは、長いドキュメントの表現に苦労し、しばしば切り詰められます。
この課題を緩和するための一般的なアプローチは、文書を埋め込むために小さな段落に分割することである。
しかし、この戦略によりベクトルの集合がより大きくなり、結果としてメモリ消費が増加し、計算集約的なベクトル探索がレイテンシが上昇する。
これらの課題に対処するため,我々は8192トークンまで対応可能なオープンソースのテキスト埋め込みモデルであるjina embeddeds 2を紹介する。
このモデルは,従来の512token制限を超越し,長文処理を行うように設計されている。
Jina Embeddings 2はMTEBベンチマークの様々な組み込み関連タスクにおける最先端のパフォーマンスを達成するだけでなく、OpenAIのプロプライエタリなada-002モデルのパフォーマンスと一致する。
さらに,この拡張コンテキストによって,narrativeqaなどのタスクのパフォーマンスが向上することを示す実験を行った。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文 参考訳(メタデータ) (2023-06-12T03:28:33Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - A Framework for Authorial Clustering of Shorter Texts in Latent Semantic
Spaces [4.18804572788063]
著者クラスタリングは、著者の執筆スタイルや主題的好みの事前の肯定的な例のない、同一の著者または著者のチームによって書かれた文書をグループ化する。
非パラメトリックなトピックモデリングから導出した潜在特徴空間におけるコンパクトなデータ表現を利用する高レベルフレームワークを提案する。
3つの言語と2つのジャンルで120個のコレクションを実験し、トピックベースの潜在機能空間が有望なパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-11-30T17:39:44Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Learning to Ignore: Long Document Coreference with Bounded Memory Neural
Networks [65.3963282551994]
我々は、すべてのエンティティをメモリに保持することは不要であると主張し、同時に少数のエンティティだけを追跡するメモリ拡張ニューラルネットワークを提案する。
a)OntoNotesとLitBankの高メモリ・計算要求モデルと競合する傾向にあり,(b)ルールベースの戦略よりも容易に効率の良いメモリ管理戦略を学習できることを示す。
論文 参考訳(メタデータ) (2020-10-06T15:16:31Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。