Fugu-MT 論文翻訳(概要): Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

論文の概要: Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

arxiv url: http://arxiv.org/abs/2310.19923v2
Date: Tue, 2 Jan 2024 10:01:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 19:41:07.825944
Title: Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents
Title（参考訳）: Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents
Authors: Michael G\"unther, Jackmin Ong, Isabelle Mohr, Alaeddine Abdessalem, Tanguy Abel, Mohammad Kalim Akram, Susana Guzman, Georgios Mastrapas, Saba Sturua, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao
Abstract要約: Jina Embeddings 2は、最大8192トークンを収容できるオープンソースのテキスト埋め込みモデルである。 Jina Embeddings 2は、様々な埋め込み関連タスクで最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 4.684550938526876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text embedding models have emerged as powerful tools for transforming sentences into fixed-sized feature vectors that encapsulate semantic information. While these models are essential for tasks like information retrieval, semantic clustering, and text re-ranking, most existing open-source models, especially those built on architectures like BERT, struggle to represent lengthy documents and often resort to truncation. One common approach to mitigate this challenge involves splitting documents into smaller paragraphs for embedding. However, this strategy results in a much larger set of vectors, consequently leading to increased memory consumption and computationally intensive vector searches with elevated latency. To address these challenges, we introduce Jina Embeddings 2, an open-source text embedding model capable of accommodating up to 8192 tokens. This model is designed to transcend the conventional 512-token limit and adeptly process long documents. Jina Embeddings 2 not only achieves state-of-the-art performance on a range of embedding-related tasks in the MTEB benchmark but also matches the performance of OpenAI's proprietary ada-002 model. Additionally, our experiments indicate that an extended context can enhance performance in tasks such as NarrativeQA.
Abstract（参考訳）: テキスト埋め込みモデルは、文を意味情報をカプセル化する固定サイズの特徴ベクトルに変換する強力なツールとして登場した。これらのモデルは、情報検索、セマンティッククラスタリング、テキストの再ランクといったタスクには不可欠ですが、既存のオープンソースモデル、特にBERTのようなアーキテクチャ上に構築されたモデルでは、長いドキュメントの表現に苦労し、しばしば切り詰められます。この課題を緩和するための一般的なアプローチは、文書を埋め込むために小さな段落に分割することである。しかし、この戦略によりベクトルの集合がより大きくなり、結果としてメモリ消費が増加し、計算集約的なベクトル探索がレイテンシが上昇する。これらの課題に対処するため,我々は8192トークンまで対応可能なオープンソースのテキスト埋め込みモデルであるjina embeddeds 2を紹介する。このモデルは,従来の512token制限を超越し,長文処理を行うように設計されている。 Jina Embeddings 2はMTEBベンチマークの様々な組み込み関連タスクにおける最先端のパフォーマンスを達成するだけでなく、OpenAIのプロプライエタリなada-002モデルのパフォーマンスと一致する。さらに,この拡張コンテキストによって,narrativeqaなどのタスクのパフォーマンスが向上することを示す実験を行った。

関連論文リスト

Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-28T08:51:51Z)
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-08-03T23:59:31Z)
Dewey Long Context Embedding Model: A Technical Report [0.0]
dewey_en_betaは、MTEB(Eng, v2)およびLongEmbedベンチマーク上で優れたパフォーマンスを実現する、新しいテキスト埋め込みモデルである。本稿では,オープンソースのdewey_en_beta埋め込みモデルのトレーニング手法と評価結果について述べる。
論文参考訳（メタデータ） (2025-03-26T09:55:00Z)
Training Sparse Mixture Of Experts Text Embedding Models [0.0]
トランスフォーマーベースのテキスト埋め込みモデルは、パラメータ数を増やすことで、MIRACLやBEIRのようなベンチマークのパフォーマンスを改善した。このスケーリングアプローチでは、推論レイテンシやメモリ使用量の増加など、デプロイメント上の大きな課題が導入されている。最初の汎用MoEテキスト埋め込みモデルであるNomic Embed v2を紹介する。
論文参考訳（メタデータ） (2025-02-11T21:36:31Z)
DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。 HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文参考訳（メタデータ） (2024-09-18T11:34:28Z)
jina-embeddings-v3: Multilingual Embeddings With Task LoRA [6.926642162309072]
jina-embeddings-v3は5億7000万のパラメータを持つ新しいテキスト埋め込みモデルである。多言語データと長文検索タスクで最先端のパフォーマンスを実現する。最大8192トークンのコンテキスト長をサポートする。
論文参考訳（メタデータ） (2024-09-16T11:10:29Z)
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models [5.330795983408874]
遅延チャンキングと呼ばれる新しい手法を導入し、長いコンテキストの埋め込みモデルを利用して、まず長いテキストのトークンを埋め込む。結果として得られたチャンク埋め込みは、コンテキスト情報を完全にキャプチャし、様々な検索タスクにおいて優れた結果をもたらす。
論文参考訳（メタデータ） (2024-09-07T03:54:46Z)
Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文参考訳（メタデータ） (2024-06-25T22:50:48Z)
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文参考訳（メタデータ） (2024-06-04T17:59:25Z)
Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文参考訳（メタデータ） (2024-05-11T16:48:06Z)
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。また,高効率な階層分割モデルMiniSegを導入する。
論文参考訳（メタデータ） (2024-02-27T15:59:37Z)
LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-01-31T15:33:37Z)
Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。 RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文参考訳（メタデータ） (2023-06-12T03:28:33Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)
HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文参考訳（メタデータ） (2021-10-12T22:42:31Z)
Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文参考訳（メタデータ） (2020-04-26T07:04:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。