論文の概要: Extracting Sentence Embeddings from Pretrained Transformer Models
- arxiv url: http://arxiv.org/abs/2408.08073v2
- Date: Thu, 20 Feb 2025 14:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:19.258920
- Title: Extracting Sentence Embeddings from Pretrained Transformer Models
- Title(参考訳): 事前学習した変圧器モデルからの文埋め込み抽出
- Authors: Lukas Stankevičius, Mantas Lukoševičius,
- Abstract要約: 本稿では,BERTベースモデルと単純なベースラインモデルから抽出した文の埋め込みを,表現形成技術により大幅に改善することを示す。
すべてのメソッドは8つのセマンティックテキスト類似性(STS)、6つの短いテキストクラスタリング、12の分類タスクでテストされる。
静的トークンベースのモデル、特にSTSタスクのランダムな埋め込みは、BERTから派生した表現のパフォーマンスにほぼ達する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Pre-trained transformer models shine in many natural language processing tasks and therefore are expected to bear the representation of the input sentence or text meaning. These sentence-level embeddings are also important in retrieval-augmented generation. But do commonly used plain averaging or prompt templates sufficiently capture and represent the underlying meaning? After providing a comprehensive review of existing sentence embedding extraction and refinement methods, we thoroughly test different combinations and our original extensions of the most promising ones on pretrained models. Namely, given 110 M parameters, BERT's hidden representations from multiple layers, and many tokens, we try diverse ways to extract optimal sentence embeddings. We test various token aggregation and representation post-processing techniques. We also test multiple ways of using a general Wikitext dataset to complement BERT's sentence embeddings. All methods are tested on eight Semantic Textual Similarity (STS), six short text clustering, and twelve classification tasks. We also evaluate our representation-shaping techniques on other static models, including random token representations. Proposed representation extraction methods improve the performance on STS and clustering tasks for all models considered. Very high improvements for static token-based models, especially random embeddings for STS tasks, almost reach the performance of BERT-derived representations. Our work shows that the representation-shaping techniques significantly improve sentence embeddings extracted from BERT-based and simple baseline models.
- Abstract(参考訳): 事前学習されたトランスフォーマーモデルは、多くの自然言語処理タスクで輝き、入力文やテキストの意味を表現することが期待されている。
これらの文レベルの埋め込みは、検索強化世代においても重要である。
しかし、一般的に使われるプレーン平均化やプロンプトテンプレートは、基盤となる意味を十分に捉え、表現しますか?
既存の文の埋め込み抽出と精細化手法の総合的なレビューを行った後、事前訓練されたモデル上で、様々な組み合わせと、最も有望なものの拡張を徹底的に検証した。
すなわち、110Mパラメータ、BERTの複数の層からの隠された表現、および多くのトークンが与えられた場合、最適な文埋め込みを抽出する方法を多種多様な方法で試みる。
さまざまなトークン集合と表現後処理技術をテストする。
また、一般的なWikitextデータセットを用いてBERTの文埋め込みを補完する複数の方法をテストする。
すべてのメソッドは8つのセマンティックテキスト類似性(STS)、6つの短いテキストクラスタリング、12の分類タスクでテストされる。
また、ランダムトークン表現を含む他の静的モデル上での表現形成手法の評価を行った。
提案した表現抽出手法は、STSにおける性能と、考慮されたすべてのモデルに対するクラスタリングタスクを改善する。
静的トークンベースのモデル、特にSTSタスクのランダムな埋め込みの大幅な改善は、BERTから派生した表現のパフォーマンスにほぼ達する。
本研究は,BERTベースおよび単純なベースラインモデルから抽出した文の埋め込みを,表現形成技術により大幅に改善することを示す。
関連論文リスト
- Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings [29.273438110694574]
事前訓練された言語モデルからの文の埋め込みは、非形式的な単語に対するバイアスに悩まされる。
モデルに基づく重要度推定で単語を重み付けする,シンプルで効率的な非教師付きアプローチであるDiagonal Attention Pooling (Ditto)を提案する。
本稿では,Dittoが異方性問題を緩和し,意味的テキスト類似性タスクの事前学習モデルを改善することを示す。
論文 参考訳(メタデータ) (2023-05-18T07:56:40Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words [59.142185753887645]
本研究では,テキストの簡易化を継続する事前学習手法を提案する。
我々は、継続事前学習に小規模な単純なテキストデータセットを使用し、簡単な単語を識別するために2つの方法を用いる。
語彙単純化タスクと文簡略化タスクの両方においてBERTを超えるSimpleBERTを得る。
論文 参考訳(メタデータ) (2022-04-16T11:28:01Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文 参考訳(メタデータ) (2020-11-03T07:13:06Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Multiple Word Embeddings for Increased Diversity of Representation [15.279850826041066]
本稿では,実行時間の増加を無視できるような,強いベースライン上での性能を実質的に一貫的に向上させる手法を示す。
我々は、事前学習した埋め込み類似性と語彙被覆の側面を分析し、表現多様性がなぜこの技術が機能するかの原動力であることを見出した。
論文 参考訳(メタデータ) (2020-09-30T02:33:09Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - SBERT-WK: A Sentence Embedding Method by Dissecting BERT-based Word
Models [43.18970770343777]
BERTと呼ばれる文脈化された単語表現は、非常に少数のNLPタスクで最先端のパフォーマンスを達成する。
しかし、BERTベースの単語モデルから高品質な文表現を生成することは、オープンな問題である。
本稿では,単語表現に代表される空間の幾何学的解析により,BERTに基づく単語モデルを切り離すことにより,新しい文埋め込み手法を提案する。
論文 参考訳(メタデータ) (2020-02-16T19:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。