Fugu-MT 論文翻訳(概要): Gecko: Versatile Text Embeddings Distilled from Large Language Models

論文の概要: Gecko: Versatile Text Embeddings Distilled from Large Language Models

arxiv url: http://arxiv.org/abs/2403.20327v1
Date: Fri, 29 Mar 2024 17:56:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 14:55:26.073940
Title: Gecko: Versatile Text Embeddings Distilled from Large Language Models
Title（参考訳）: Gecko: 大規模言語モデルからダイオードしたテキスト埋め込み
Authors: Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim,
Abstract要約: 本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。私たちは、大きな言語モデル(LLM)から知識をレトリバーに抽出する、という重要なアイデアを活用しています。 MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。
参考スコア（独自算出の注目度）: 32.06501336328989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.
Abstract（参考訳）: 本稿では,コンパクトで汎用的なテキスト埋め込みモデルであるGeckoを紹介する。 Geckoは,大規模な言語モデル(LLM)から知識を抽出する,というキーアイデアを活用することで,強力な検索性能を実現する。我々の2段階蒸留プロセスは、LSMを用いて多種多様な合成ペアデータを生成することから始まります。次に、各クエリの候補パスの集合を検索し、同じLSMを用いて正負のパスと強負のパスを解放することにより、データ品質をさらに改善する。提案手法の有効性は, ゲコのコンパクト性によって実証される。 MTEB (Massive Text Embedding Benchmark) では、256の埋め込み次元を持つ Gecko が 768 の埋め込みサイズで既存のエントリを上回ります。 768の埋め込み次元を持つゲコは平均スコア66.31に達し、7倍のモデルと5倍の高次元埋め込みと競合する。

関連論文リスト

VN-MTEB: Vietnamese Massive Text Embedding Benchmark [0.5205587217393737]
ベトナムは、インターネットトラフィックとオンライン毒性の両面でトップ国にランクインしている。私たちのベンチマークはベトナム語テキストの埋め込み用に特別に設計された6つのタスクから41のデータセットで構成されています。本分析では, ロータリー位置埋め込みを用いたより大規模で複雑なモデルでは, 絶対位置埋め込みを組込み作業に用いたモデルよりも優れていた。
論文参考訳（メタデータ） (2025-07-29T04:48:55Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Jasper and Stella: distillation of SOTA embedding models [8.708650717134008]
そこで本研究では,より小規模な学生埋め込みモデルにより,複数の教師埋め込みモデルを蒸留できる新しい多段階蒸留フレームワークを提案する。我々は,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、Massive Text Embedding Benchmarkのリーダーボードで3位を獲得しました。
論文参考訳（メタデータ） (2024-12-26T04:05:28Z)
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文参考訳（メタデータ） (2024-07-29T03:12:28Z)
Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文参考訳（メタデータ） (2024-06-07T04:52:46Z)
DocuMint: Docstring Generation for Python using Small Language Models [0.0]
本研究では,高品質なドクストリング生成のための小型言語モデル(SLM)の有効性について検討した。定量的実験では、Llama 3 8Bは全ての測定値で最高の性能を達成し、簡潔さと明度はそれぞれ0.605と64.88であった。人間の評価では、CodeGemma 7Bはすべての指標で平均8.3のスコアで最高となった。
論文参考訳（メタデータ） (2024-05-16T16:46:46Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
Repetition Improves Language Model Embeddings [68.92976440181387]
本稿では,2回入力を繰り返して,2回目以降の埋め込みを抽出する「echo Embeddings」を提案する。 MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
論文参考訳（メタデータ） (2024-02-23T17:25:10Z)
Generative Representational Instruction Tuning [89.76840377003178]
GritLM 7B がMassive Text Embedding Benchmark (MTEB) に新たな技術状況を設定する GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。
論文参考訳（メタデータ） (2024-02-15T12:12:19Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
LLM aided semi-supervision for Extractive Dialog Summarization [8.914696133116546]
本稿では,ユーザ・エージェント・ダイアログの抽出要約にラベルのないデータを効率的に利用する手法を提案する。問合せ問題として要約を行い,言語モデル(LLM)を用いてダイアログの擬似ラベルを生成する。
論文参考訳（メタデータ） (2023-11-19T23:59:22Z)
Towards General Text Embeddings with Multi-stage Contrastive Learning [20.803769345818456]
GTEは多段階のコントラスト学習で訓練された汎用テキスト埋め込みモデルである。複数の情報源からの多様なデータセットに対してコントラスト学習を用いることで、統一的なテキスト埋め込みモデルを訓練する。
論文参考訳（メタデータ） (2023-08-07T03:52:59Z)
Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文参考訳（メタデータ） (2020-11-02T02:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。