Fugu-MT 論文翻訳(概要): ESE: Espresso Sentence Embeddings

論文の概要: ESE: Espresso Sentence Embeddings

arxiv url: http://arxiv.org/abs/2402.14776v2
Date: Tue, 21 May 2024 07:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 18:31:52.009940
Title: ESE: Espresso Sentence Embeddings
Title（参考訳）: ESE: Espresso Sentence Embeddings
Authors: Xianming Li, Zongxi Li, Jing Li, Haoran Xie, Qing Li,
Abstract要約: 高品質な文埋め込みは多くの自然言語処理(NLP)タスクにおいて基本となる。本稿では,2つの学習プロセスを持つ新しい文埋め込みモデル$mathrmEspresso$$mathrmSentence$$mathrmEmbeddings$ (ESE)を提案する。
参考スコア（独自算出の注目度）: 11.682642816354418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-quality sentence embeddings are fundamental in many natural language processing (NLP) tasks, such as semantic textual similarity (STS) and retrieval-augmented generation (RAG). Nevertheless, most existing methods leverage fixed-length embeddings from full-layer language models, which lack the scalability to accommodate the diverse available resources across various applications. Viewing this gap, we propose a novel sentence embedding model $\mathrm{Espresso}$ $\mathrm{Sentence}$ $\mathrm{Embeddings}$ (ESE) with two learning processes. First, the learn-to-express process encodes more salient representations to lower layers. Second, the learn-to-compress process compacts essential features into the initial dimensions using Principal Component Analysis (PCA). This way, ESE can scale model depth via the former process and embedding size via the latter. Extensive experiments on STS and RAG suggest that ESE can effectively produce high-quality embeddings with less model depth and embedding size, enhancing embedding inference efficiency.
Abstract（参考訳）: 高品質な文埋め込みは、意味的テキスト類似性(STS)や検索拡張生成(RAG)など、多くの自然言語処理(NLP)タスクにおいて基本的なものである。それにもかかわらず、既存のほとんどのメソッドは、様々なアプリケーションにまたがる多様なリソースに対応するスケーラビリティに欠けるフルレイヤ言語モデルからの固定長の埋め込みを活用している。このギャップをみると、2つの学習プロセスを持つ新しい文埋め込みモデル $\mathrm{Espresso}$ $\mathrm{Sentence}$ $\mathrm{Embeddings}$ (ESE) を提案する。まず、学習から表現までのプロセスは、より健全な表現を下位層にエンコードする。第二に、学習から圧縮までのプロセスは、主成分分析(PCA)を用いて、重要な特徴を初期次元にコンパクト化する。このように、ESEは前者のプロセスと後者のプロセスによる埋め込みサイズを介してモデル深さをスケールすることができる。 STS と RAG に関する大規模な実験により,ESE はモデル深度と埋め込みサイズを低減した高品質な埋め込みを効果的に生成し,埋め込み推論効率を向上させることが示唆された。

関連論文リスト

Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-28T04:12:13Z)
OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文参考訳（メタデータ） (2023-11-15T10:40:45Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文参考訳（メタデータ） (2023-10-09T14:10:21Z)
ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。 ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文参考訳（メタデータ） (2023-07-23T15:17:45Z)
ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-01T18:16:06Z)
2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。多次元状態空間モデルの表現的変動を利用する。本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文参考訳（メタデータ） (2023-06-11T09:41:37Z)
TranSFormer: Slow-Fast Transformer for Machine Translation [52.12212173775029]
本稿では,TrantextbfSFormerと呼ばれる2ストリーム学習モデルを提案する。我々のTranSFormerは、複数の機械翻訳ベンチマークにおいて、BLEUの一貫性のある改善(BLEU点よりも大きい)を示す。
論文参考訳（メタデータ） (2023-05-26T14:37:38Z)
Towards A Unified View of Sparse Feed-Forward Network in Pretraining Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文参考訳（メタデータ） (2023-05-23T12:28:37Z)
Revisiting Offline Compression: Going Beyond Factorization-based Methods for Transformer Language Models [7.542276054279341]
トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
論文参考訳（メタデータ） (2023-02-08T13:36:06Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
A multi-model-based deep learning framework for short text multiclass classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文参考訳（メタデータ） (2022-06-24T00:51:02Z)
Exploring Dimensionality Reduction Techniques in Multilingual Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文参考訳（メタデータ） (2022-04-18T17:20:55Z)
Compressing Sentence Representation for Semantic Retrieval via Homomorphic Projective Distillation [28.432799973328127]
圧縮文の埋め込みを学習するために,同相射影蒸留法(HPD)を提案する。提案手法は,小さなトランスフォーマーエンコーダモデルを学習可能なプロジェクション層で拡張し,コンパクトな表現を生成する。
論文参考訳（メタデータ） (2022-03-15T07:05:43Z)
Learning Effective and Efficient Embedding via an Adaptively-Masked Twins-based Layer [15.403616481651383]
本稿では,標準埋め込み層の背後に適応型ツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツインツ AMTLは、埋め込みベクトルごとに望ましくない次元をマスクするマスクベクトルを生成する。マスクベクトルは次元の選択に柔軟性をもたらし、提案した層は訓練されていないDLRMや訓練されていないDLRMに簡単に追加できる。
論文参考訳（メタデータ） (2021-08-24T11:50:49Z)
Direction is what you need: Improving Word Embedding Compression in Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-15T14:28:00Z)
Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文参考訳（メタデータ） (2021-04-08T08:21:59Z)
SML: a new Semantic Embedding Alignment Transformer for efficient cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。 nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文参考訳（メタデータ） (2021-03-17T13:23:53Z)
Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文参考訳（メタデータ） (2020-10-14T12:28:08Z)
All Word Embeddings from One Embedding [23.643059189673473]
自然言語処理のためのニューラルネットワークベースのモデルでは、パラメータの最大の部分は単語の埋め込みで構成されていることが多い。本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。提案手法であるALONEは,単語固有のが学習不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
論文参考訳（メタデータ） (2020-04-25T07:38:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。