論文の概要: Gecko: Versatile Text Embeddings Distilled from Large Language Models
- arxiv url: http://arxiv.org/abs/2403.20327v1
- Date: Fri, 29 Mar 2024 17:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 14:55:26.073940
- Title: Gecko: Versatile Text Embeddings Distilled from Large Language Models
- Title(参考訳): Gecko: 大規模言語モデルからダイオードしたテキスト埋め込み
- Authors: Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim,
- Abstract要約: 本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。
私たちは、大きな言語モデル(LLM)から知識をレトリバーに抽出する、という重要なアイデアを活用しています。
MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。
- 参考スコア(独自算出の注目度): 32.06501336328989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.
- Abstract(参考訳): 本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。
Geckoは,大規模な言語モデル(LLM)から知識を抽出する,というキーアイデアを活用することで,強力な検索性能を実現する。
我々の2段階蒸留プロセスは、LSMを用いて多種多様な合成ペアデータを生成することから始まります。
次に、各クエリの候補パスの集合を検索し、同じLSMを用いて正負のパスと強負のパスを解放することにより、データ品質をさらに改善する。
提案手法の有効性は, ゲコのコンパクト性によって実証される。
MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。
768の埋め込み次元を持つゲコは平均スコア66.31に達し、7倍のモデルと5倍の高次元埋め込みと競合する。
関連論文リスト
- mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - DocuMint: Docstring Generation for Python using Small Language Models [0.0]
本研究では,高品質なドクストリング生成のための小型言語モデル(SLM)の有効性について検討した。
定量的実験では、Llama 3 8Bは全ての測定値で最高の性能を達成し、簡潔さと明度はそれぞれ0.605と64.88であった。
人間の評価では、CodeGemma 7Bはすべての指標で平均8.3のスコアで最高となった。
論文 参考訳(メタデータ) (2024-05-16T16:46:46Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Repetition Improves Language Model Embeddings [68.92976440181387]
本稿では,2回入力を繰り返して,2回目以降の埋め込みを抽出する「echo Embeddings」を提案する。
MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
論文 参考訳(メタデータ) (2024-02-23T17:25:10Z) - Generative Representational Instruction Tuning [89.76840377003178]
GritLM 7B がMassive Text Embedding Benchmark (MTEB) に新たな技術状況を設定する
GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-15T12:12:19Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - LLM aided semi-supervision for Extractive Dialog Summarization [8.914696133116546]
本稿では,ユーザ・エージェント・ダイアログの抽出要約にラベルのないデータを効率的に利用する手法を提案する。
問合せ問題として要約を行い,言語モデル(LLM)を用いてダイアログの擬似ラベルを生成する。
論文 参考訳(メタデータ) (2023-11-19T23:59:22Z) - Towards General Text Embeddings with Multi-stage Contrastive Learning [20.803769345818456]
GTEは多段階のコントラスト学習で訓練された汎用テキスト埋め込みモデルである。
複数の情報源からの多様なデータセットに対してコントラスト学習を用いることで、統一的なテキスト埋め込みモデルを訓練する。
論文 参考訳(メタデータ) (2023-08-07T03:52:59Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。