論文の概要: Extracting Sentence Embeddings from Pretrained Transformer Models
- arxiv url: http://arxiv.org/abs/2408.08073v1
- Date: Thu, 15 Aug 2024 10:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:16:19.006088
- Title: Extracting Sentence Embeddings from Pretrained Transformer Models
- Title(参考訳): 事前学習した変圧器モデルからの文埋め込み抽出
- Authors: Lukas Stankevičius, Mantas Lukoševičius,
- Abstract要約: 110万のパラメータ BERT が複数の層と複数のトークンから隠された表現を与えられた場合、最適な文表現を抽出するために様々な方法を試した。
全手法がセマンティックテキスト類似性(STS)、8つの短いテキストクラスタリング、6つの分類タスクでテストされた。
静的トークンベースのモデル、特にSTSタスクのランダムな埋め込みの大幅な改善は、BERTベースの表現のパフォーマンスにほぼ達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background/introduction: Pre-trained transformer models shine in many natural language processing tasks and therefore are expected to bear the representation of the input sentence or text meaning. These sentence-level embeddings are also important in retrieval-augmented generation. But do commonly used plain averaging or prompt templates surface it enough? Methods: Given 110M parameters BERT's hidden representations from multiple layers and multiple tokens we tried various ways to extract optimal sentence representations. We tested various token aggregation and representation post-processing techniques. We also tested multiple ways of using a general Wikitext dataset to complement BERTs sentence representations. All methods were tested on 8 Semantic Textual Similarity (STS), 6 short text clustering, and 12 classification tasks. We also evaluated our representation-shaping techniques on other static models, including random token representations. Results: Proposed representation extraction methods improved the performance on STS and clustering tasks for all models considered. Very high improvements for static token-based models, especially random embeddings for STS tasks almost reach the performance of BERT-derived representations. Conclusions: Our work shows that for multiple tasks simple baselines with representation shaping techniques reach or even outperform more complex BERT-based models or are able to contribute to their performance.
- Abstract(参考訳): 背景/意図: 事前学習されたトランスフォーマーモデルは、多くの自然言語処理タスクで輝き、入力文やテキストの意味を表現することが期待される。
これらの文レベルの埋め込みは、検索強化世代においても重要である。
しかし、一般的な平均化やプロンプトテンプレートは、十分に表面化していますか?
方法: BERTの複数の層および複数のトークンからの隠された表現を110万個のパラメータに与え, 最適な文表現を抽出する様々な方法を試みた。
さまざまなトークン集合と表現後処理手法を検証した。
また、汎用Wikitextデータセットを用いてBERTの文表現を補完する複数の方法についても検討した。
全手法がセマンティックテキスト類似性(STS)、8つの短いテキストクラスタリング、6つの分類タスクでテストされた。
また、ランダムトークン表現を含む他の静的モデル上での表現形成手法の評価を行った。
結果: 提案した表現抽出手法により, STSにおける性能が向上し, 検討された全てのモデルに対するクラスタリングタスクが向上した。
静的トークンベースのモデル、特にSTSタスクのランダムな埋め込みは、BERTから派生した表現のパフォーマンスにほぼ達する。
結論: 私たちの研究は、複数のタスクにおいて、表現整形技術による単純なベースラインが、より複雑なBERTベースのモデルに到達したり、さらに優れたりするか、あるいはそれらのパフォーマンスに貢献できることを示す。
関連論文リスト
- Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Multiple Word Embeddings for Increased Diversity of Representation [15.279850826041066]
本稿では,実行時間の増加を無視できるような,強いベースライン上での性能を実質的に一貫的に向上させる手法を示す。
我々は、事前学習した埋め込み類似性と語彙被覆の側面を分析し、表現多様性がなぜこの技術が機能するかの原動力であることを見出した。
論文 参考訳(メタデータ) (2020-09-30T02:33:09Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - SBERT-WK: A Sentence Embedding Method by Dissecting BERT-based Word
Models [43.18970770343777]
BERTと呼ばれる文脈化された単語表現は、非常に少数のNLPタスクで最先端のパフォーマンスを達成する。
しかし、BERTベースの単語モデルから高品質な文表現を生成することは、オープンな問題である。
本稿では,単語表現に代表される空間の幾何学的解析により,BERTに基づく単語モデルを切り離すことにより,新しい文埋め込み手法を提案する。
論文 参考訳(メタデータ) (2020-02-16T19:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。