論文の概要: Jina Embeddings: A Novel Set of High-Performance Sentence Embedding
Models
- arxiv url: http://arxiv.org/abs/2307.11224v3
- Date: Fri, 20 Oct 2023 14:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 03:21:41.229629
- Title: Jina Embeddings: A Novel Set of High-Performance Sentence Embedding
Models
- Title(参考訳): Jina Embeddings: 高性能な文埋め込みモデルの新しいセット
- Authors: Michael G\"unther, Louis Milliken, Jonathan Geuter, Georgios
Mastrapas, Bo Wang, Han Xiao
- Abstract要約: Jina Embeddingsは、テキスト入力を数値表現に変換するのに有効な高性能な文埋め込みモデルである。
本稿では、高品質なペアワイドデータセットとトリプルトデータセットの作成から始まる、Jina Embeddingsの開発について詳述する。
MTEB(Massive Text Embedding Benchmark)を用いた総合的なパフォーマンス評価で結論付けている。
- 参考スコア(独自算出の注目度): 4.451741472324815
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Jina Embeddings constitutes a set of high-performance sentence embedding
models adept at translating textual inputs into numerical representations,
capturing the semantics of the text. These models excel in applications like
dense retrieval and semantic textual similarity. This paper details the
development of Jina Embeddings, starting with the creation of high-quality
pairwise and triplet datasets. It underlines the crucial role of data cleaning
in dataset preparation, offers in-depth insights into the model training
process, and concludes with a comprehensive performance evaluation using the
Massive Text Embedding Benchmark (MTEB). Furthermore, to increase the model's
awareness of grammatical negation, we construct a novel training and evaluation
dataset of negated and non-negated statements, which we make publicly available
to the community.
- Abstract(参考訳): Jina Embeddingsは、テキスト入力を数値表現に変換するのに有効な高性能な文埋め込みモデルである。
これらのモデルは、密集検索や意味的テキスト類似性のような応用において優れている。
本稿では、高品質なペアワイズおよびトリプルトデータセットの作成から始まった、jina埋め込みの開発について述べる。
データセット作成におけるデータクリーニングの重要な役割を強調し、モデルトレーニングプロセスに関する深い洞察を提供し、massive text embedded benchmark(mteb)を用いた包括的なパフォーマンス評価で締めくくっている。
さらに,文法的否定に対するモデルの認識を高めるために,否定的かつ非否定的文の新たな訓練・評価データセットを構築し,それをコミュニティに公開する。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Empirical Evaluation of Embedding Models in the Context of Text Classification in Document Review in Construction Delay Disputes [6.076874513889027]
テキスト埋め込みはテキストデータの数値表現であり、単語、フレーズ、文書全体を実数のベクトルに変換する。
本稿では,4つの異なるモデルの包括的比較分析を通じて,異なる埋め込みを評価する作業について述べる。
K-Nearest Neighbors (KNN) と Logistic Regression (LR) の両方を用いてバイナリ分類タスクを行い、特にラベル付きデータセット内でテキストスニペットが 'delay' あるいは 'not delay' に関連付けられているかどうかを判断する。
論文 参考訳(メタデータ) (2025-01-16T22:12:11Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting [0.0]
本稿では,大規模な言語モデル(LLM)を活用して埋め込み処理前に入力テキストを豊かに書き直しすることで,埋め込み性能を向上させる新しい手法を提案する。
このアプローチの有効性は、Banking77 Classification、TwitterSemEval 2015、Amazon Counter-factual Classificationの3つのデータセットで評価されている。
論文 参考訳(メタデータ) (2024-04-18T15:58:56Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Tracing Origins: Coref-aware Machine Reading Comprehension [43.352833140317486]
そこで,本研究では,アナフォリック表現を接続する際の人間の読影過程を模倣し,コア参照情報を活用し,事前学習モデルから単語の埋め込みを強化する。
学習段階におけるコア参照情報の明示的な組み込みは,事前学習言語モデルの訓練において,コア参照情報の組み込みよりも優れていたことを実証した。
論文 参考訳(メタデータ) (2021-10-15T09:28:35Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。