論文の概要: LEAF: Knowledge Distillation of Text Embedding Models with Teacher-Aligned Representations
- arxiv url: http://arxiv.org/abs/2509.12539v1
- Date: Tue, 16 Sep 2025 00:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.823982
- Title: LEAF: Knowledge Distillation of Text Embedding Models with Teacher-Aligned Representations
- Title(参考訳): LEAF:教師対応表現を用いたテキスト埋め込みモデルの知識蒸留
- Authors: Robin Vujanic, Thomas Rueckstiess,
- Abstract要約: テキスト埋め込みモデルのための知識蒸留フレームワークであるLEAF(Lightweight Embedding Alignment Framework)を提案する。
重要な特徴は、私たちの蒸留葉モデルが教師と一致していることです。
これらの特性が教師モデルに存在すると、葉モデルがMRLとロバスト性を自動的に継承して量子化を出力することを示す。
- 参考スコア(独自算出の注目度): 2.191505742658975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LEAF ("Lightweight Embedding Alignment Framework"), a knowledge distillation framework for text embedding models. A key distinguishing feature is that our distilled leaf models are aligned to their teacher. In the context of information retrieval, this allows for flexible asymmetric architectures where documents are encoded with the larger teacher model, while queries can be served with the smaller leaf models. We also show that leaf models automatically inherit MRL and robustness to output quantization whenever these properties are present in the teacher model, without explicitly training for them. To demonstrate the capability of our framework we publish leaf-ir, a 23M parameters information retrieval oriented text embedding model trained using LEAF, which sets a new state-of-the-art (SOTA) on BEIR, ranking #1 on the public leaderboard for this benchmark and for models of its size. When run in asymmetric mode, its retrieval performance is further increased. Our scheme is however not restricted to the information retrieval setting, and we demonstrate its wider applicability by synthesizing the multi-task leaf-mt model. This also sets a new SOTA, ranking #1 on the public MTEB v2 (English) leaderboard for its size. LEAF is applicable to black-box models and in contrast to other embedding model training frameworks, it does not require judgments nor hard negatives, and training can be conducted using small batch sizes. Thus, dataset and training infrastructure requirements for our framework are modest. We make our models publicly available under a permissive Apache 2.0 license.
- Abstract(参考訳): テキスト埋め込みモデルのための知識蒸留フレームワークであるLEAF(Lightweight Embedding Alignment Framework)を提案する。
重要な特徴は、私たちの蒸留葉モデルが教師と一致していることです。
情報検索の文脈では、より大きな教師モデルでドキュメントをエンコードし、より小さなリーフモデルでクエリを提供する、柔軟な非対称アーキテクチャを実現することができる。
また,これらの特性が教師モデルに存在するたびに,MRLとロバスト性を自動で継承して量子化を出力することを示した。
LEAFを用いて学習した23Mパラメータ情報検索指向テキスト埋め込みモデルであるLeft-irをBEIR上に新たにSOTA(State-of-the-art)を設定し,このベンチマークとサイズモデルについて,パブリックリーダボードで第1位にランク付けした。
非対称モードで実行すると、その検索性能はさらに向上する。
しかし,本手法は情報検索設定に限らず,マルチタスクリーフ-mtモデルを合成して適用性を示す。
また、新しいSOTAが設定され、MTEB v2(英語)のリーダーボードで1位にランクインした。
LEAFはブラックボックスモデルに適用でき、他の埋め込みモデルトレーニングフレームワークとは対照的に、判断や強みは必要とせず、小さなバッチサイズでトレーニングを行うことができる。
したがって、私たちのフレームワークのデータセットとトレーニングのインフラ要件は控えめです。
当社のモデルは、寛容なApache 2.0ライセンスの下で公開しています。
関連論文リスト
- Matryoshka Model Learning for Improved Elastic Student Models [62.154536258259384]
MatTAは、新しいTeacher-TA-Studentレシピを使用して、複数の正確な学生モデルをトレーニングするためのフレームワークである。
本手法はパブリックモデルであるGPT-2 Medium上で実証し,SAT Mathで24%,LAMBADAベンチマークで10%以上の相対的な改善を実現した。
論文 参考訳(メタデータ) (2025-05-29T10:54:58Z) - KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。
我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文 参考訳(メタデータ) (2025-01-02T03:17:51Z) - Jasper and Stella: distillation of SOTA embedding models [8.708650717134008]
そこで本研究では,より小規模な学生埋め込みモデルにより,複数の教師埋め込みモデルを蒸留できる新しい多段階蒸留フレームワークを提案する。
我々は,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。
私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、Massive Text Embedding Benchmarkのリーダーボードで3位を獲得しました。
論文 参考訳(メタデータ) (2024-12-26T04:05:28Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。