論文の概要: BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity
Text Embeddings Through Self-Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2402.03216v3
- Date: Sat, 10 Feb 2024 14:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:20:05.297842
- Title: BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity
Text Embeddings Through Self-Knowledge Distillation
- Title(参考訳): bge m3-embedding: 自己認識蒸留による多言語多機能多粒テキスト埋め込み
- Authors: Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, Zheng Liu
- Abstract要約: 本稿では,M3-Embeddingと呼ばれる新しい埋め込みモデルを提案する。
100以上の作業言語をサポートすることができるため、多言語および多言語検索タスクにおける最先端のパフォーマンスが新たに向上する。
M3-Embeddingは、短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。
- 参考スコア(独自算出の注目度): 28.23990046185032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a new embedding model, called M3-Embedding, which
is distinguished for its versatility in Multi-Linguality, Multi-Functionality,
and Multi-Granularity. It can support more than 100 working languages, leading
to new state-of-the-art performances on multi-lingual and cross-lingual
retrieval tasks. It can simultaneously perform the three common retrieval
functionalities of embedding model: dense retrieval, multi-vector retrieval,
and sparse retrieval, which provides a unified model foundation for real-world
IR applications. It is able to process inputs of different granularities,
spanning from short sentences to long documents of up to 8192 tokens. The
effective training of M3-Embedding involves the following technical
contributions. We propose a novel self-knowledge distillation approach, where
the relevance scores from different retrieval functionalities can be integrated
as the teacher signal to enhance the training quality. We also optimize the
batching strategy, enabling a large batch size and high training throughput to
ensure the discriminativeness of embeddings. To the best of our knowledge,
M3-Embedding is the first embedding model which realizes such a strong
versatility. The model and code will be publicly available at
https://github.com/FlagOpen/FlagEmbedding.
- Abstract(参考訳): 本稿では,多言語性,多機能性,多言語性,多言語性において,m3-embeddingと呼ばれる新しい埋め込みモデルを提案する。
100以上の作業言語をサポートすることができ、マルチ言語およびクロス言語検索タスクにおける最先端のパフォーマンス向上に繋がる。
組込みモデルの3つの共通検索機能 – 密集検索,マルチベクトル検索,スパース検索 – を同時に実行し,現実世界のIRアプリケーションに統一されたモデル基盤を提供する。
短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。
M3-Embeddingの効果的なトレーニングには、以下の技術貢献が含まれる。
そこで本研究では, 異なる検索機能による関連性スコアを教師信号として統合し, 学習品質を高めるための自己知識蒸留手法を提案する。
また、バッチ処理戦略を最適化し、大規模なバッチサイズと高いトレーニングスループットを実現し、埋め込みの識別性を確保します。
私たちの知る限り、M3-Embeddingはそのような強力な汎用性を実現する最初の埋め込みモデルです。
モデルとコードはhttps://github.com/FlagOpen/FlagEmbedding.comで公開される。
関連論文リスト
- VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - M3: A Multi-Task Mixed-Objective Learning Framework for Open-Domain Multi-Hop Dense Sentence Retrieval [12.277521531556852]
M3は,高密度テキスト表現学習のためのマルチタスク混合オブジェクトに基づく,新しいマルチホップ高密度文検索システムである。
提案手法は,大規模オープンドメイン事実検証ベンチマークデータセットであるFEVER上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T01:52:07Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Towards General Text Embeddings with Multi-stage Contrastive Learning [20.803769345818456]
GTEは多段階のコントラスト学習で訓練された汎用テキスト埋め込みモデルである。
複数の情報源からの多様なデータセットに対してコントラスト学習を用いることで、統一的なテキスト埋め込みモデルを訓練する。
論文 参考訳(メタデータ) (2023-08-07T03:52:59Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。