論文の概要: 2D Matryoshka Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2402.14776v3
- Date: Sat, 30 Nov 2024 04:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:27.952192
- Title: 2D Matryoshka Sentence Embeddings
- Title(参考訳): 2次元マトリオシカ文の埋め込み
- Authors: Xianming Li, Zongxi Li, Jing Li, Haoran Xie, Qing Li,
- Abstract要約: textitTwo-dimensional Matryoshka Sentence Embedding (2DMSE)footnote。
埋め込みサイズとトランスフォーマー層の両方の弾性設定をサポートし、MRLよりも柔軟性と効率性が高い。
実験により, 異なる埋め込みサイズとトランスフォーマー層を動的に支持する上で, 提案モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 11.682642816354418
- License:
- Abstract: Common approaches rely on fixed-length embedding vectors from language models as sentence embeddings for downstream tasks such as semantic textual similarity (STS). Such methods are limited in their flexibility due to unknown computational constraints and budgets across various applications. Matryoshka Representation Learning (MRL) \cite{aditya2022matryoshka} encodes information at finer granularities, i.e., with lower embedding dimensions, to adaptively accommodate \emph{ad hoc} tasks. Similar accuracy can be achieved with a smaller embedding size, leading to speedups in downstream tasks. Despite its improved efficiency, MRL still requires traversing all Transformer layers before obtaining the embedding, which remains the dominant factor in time and memory consumption. This prompts consideration of whether the fixed number of Transformer layers affects representation quality and whether using intermediate layers for sentence representation is feasible. In this paper, we introduce a novel sentence embedding model called \textit{Two-dimensional Matryoshka Sentence Embedding} (2DMSE)\footnote{Our code is available at \url{https://github.com/SeanLee97/AnglE/blob/main/README_2DMSE.md}.}. It supports elastic settings for both embedding sizes and Transformer layers, offering greater flexibility and efficiency than MRL. We conduct extensive experiments on STS tasks and downstream applications. The experimental results demonstrate the effectiveness of our proposed model in dynamically supporting different embedding sizes and Transformer layers, allowing it to be highly adaptable to various scenarios.
- Abstract(参考訳): 一般的なアプローチは、セマンティックテキスト類似性(STS)のような下流タスクの文埋め込みとして、言語モデルからの固定長埋め込みベクトルに依存している。
このような手法は、様々なアプリケーションにまたがる未知の計算制約や予算のために、その柔軟性に制限がある。
Matryoshka Representation Learning (MRL) \cite{aditya2022matryoshka} は、より粒度の細かい情報を符号化する。
同様の精度は、埋め込みサイズを小さくすることで達成でき、下流タスクのスピードアップにつながる。
改善された効率にもかかわらず、MRLは組み込みを得る前にトランスフォーマーのすべての層をトラバースする必要がある。
これにより、トランスフォーマー層の固定数が表現品質に影響を及ぼすか、中間層を文表現に使用することが実現可能であるか、といったことを考えることができる。
本稿では,<textit{Two-dimensional Matryoshka Sentence Embedding} (2DMSE);footnote{Our code is available at \url{https://github.com/SeanLee97/AnglE/blob/main/README_2DMSE.md}。
と。
埋め込みサイズとトランスフォーマー層の両方の弾性設定をサポートし、MRLよりも柔軟性と効率性が高い。
STSタスクと下流アプリケーションに関する広範な実験を行います。
実験により,異なる埋め込みサイズとトランスフォーマー層を動的にサポートし,様々なシナリオに適応できるモデルの有効性が示された。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Revisiting Offline Compression: Going Beyond Factorization-based Methods
for Transformer Language Models [7.542276054279341]
トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。
その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。
本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
論文 参考訳(メタデータ) (2023-02-08T13:36:06Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Compressing Sentence Representation for Semantic Retrieval via
Homomorphic Projective Distillation [28.432799973328127]
圧縮文の埋め込みを学習するために,同相射影蒸留法(HPD)を提案する。
提案手法は,小さなトランスフォーマーエンコーダモデルを学習可能なプロジェクション層で拡張し,コンパクトな表現を生成する。
論文 参考訳(メタデータ) (2022-03-15T07:05:43Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。