論文の概要: Gecko: Versatile Text Embeddings Distilled from Large Language Models
- arxiv url: http://arxiv.org/abs/2403.20327v1
- Date: Fri, 29 Mar 2024 17:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 14:55:26.073940
- Title: Gecko: Versatile Text Embeddings Distilled from Large Language Models
- Title(参考訳): Gecko: 大規模言語モデルからダイオードしたテキスト埋め込み
- Authors: Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim,
- Abstract要約: 本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。
私たちは、大きな言語モデル(LLM)から知識をレトリバーに抽出する、という重要なアイデアを活用しています。
MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。
- 参考スコア(独自算出の注目度): 32.06501336328989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.
- Abstract(参考訳): 本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。
Geckoは,大規模な言語モデル(LLM)から知識を抽出する,というキーアイデアを活用することで,強力な検索性能を実現する。
我々の2段階蒸留プロセスは、LSMを用いて多種多様な合成ペアデータを生成することから始まります。
次に、各クエリの候補パスの集合を検索し、同じLSMを用いて正負のパスと強負のパスを解放することにより、データ品質をさらに改善する。
提案手法の有効性は, ゲコのコンパクト性によって実証される。
MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。
768の埋め込み次元を持つゲコは平均スコア66.31に達し、7倍のモデルと5倍の高次元埋め込みと競合する。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Jasper and Stella: distillation of SOTA embedding models [8.708650717134008]
そこで本研究では,より小規模な学生埋め込みモデルにより,複数の教師埋め込みモデルを蒸留できる新しい多段階蒸留フレームワークを提案する。
我々は,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。
私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、Massive Text Embedding Benchmarkのリーダーボードで3位を獲得しました。
論文 参考訳(メタデータ) (2024-12-26T04:05:28Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - DocuMint: Docstring Generation for Python using Small Language Models [0.0]
本研究では,高品質なドクストリング生成のための小型言語モデル(SLM)の有効性について検討した。
定量的実験では、Llama 3 8Bは全ての測定値で最高の性能を達成し、簡潔さと明度はそれぞれ0.605と64.88であった。
人間の評価では、CodeGemma 7Bはすべての指標で平均8.3のスコアで最高となった。
論文 参考訳(メタデータ) (2024-05-16T16:46:46Z) - Repetition Improves Language Model Embeddings [68.92976440181387]
本稿では,2回入力を繰り返して,2回目以降の埋め込みを抽出する「echo Embeddings」を提案する。
MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
論文 参考訳(メタデータ) (2024-02-23T17:25:10Z) - Generative Representational Instruction Tuning [89.76840377003178]
GritLM 7B がMassive Text Embedding Benchmark (MTEB) に新たな技術状況を設定する
GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-15T12:12:19Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - LLM aided semi-supervision for Extractive Dialog Summarization [8.914696133116546]
本稿では,ユーザ・エージェント・ダイアログの抽出要約にラベルのないデータを効率的に利用する手法を提案する。
問合せ問題として要約を行い,言語モデル(LLM)を用いてダイアログの擬似ラベルを生成する。
論文 参考訳(メタデータ) (2023-11-19T23:59:22Z) - Towards General Text Embeddings with Multi-stage Contrastive Learning [20.803769345818456]
GTEは多段階のコントラスト学習で訓練された汎用テキスト埋め込みモデルである。
複数の情報源からの多様なデータセットに対してコントラスト学習を用いることで、統一的なテキスト埋め込みモデルを訓練する。
論文 参考訳(メタデータ) (2023-08-07T03:52:59Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。