論文の概要: DefSent+: Improving sentence embeddings of language models by projecting definition sentences into a quasi-isotropic or isotropic vector space of unlimited dictionary entries
- arxiv url: http://arxiv.org/abs/2405.16153v4
- Date: Sun, 29 Sep 2024 05:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:57.913165
- Title: DefSent+: Improving sentence embeddings of language models by projecting definition sentences into a quasi-isotropic or isotropic vector space of unlimited dictionary entries
- Title(参考訳): DefSent+:無限辞書エントリの準等方的あるいは等方的ベクトル空間に定義文を投影することで言語モデルの文埋め込みを改善する
- Authors: Xiaodong Liu,
- Abstract要約: 本論文は,DefSent として知られる以前の会議報告において,大幅な改善を示すものである。
そこで本稿では,制約を満たさない進入埋め込みを段階的に構築する手法を提案する。
その結果、定義文は無限辞書エントリの準等方的あるいは等方的ベクトル空間に投影できる。
- 参考スコア(独自算出の注目度): 5.317095505067784
- License:
- Abstract: This paper presents a significant improvement on the previous conference paper known as DefSent. The prior study seeks to improve sentence embeddings of language models by projecting definition sentences into the vector space of dictionary entries. We discover that this approach is not fully explored due to the methodological limitation of using word embeddings of language models to represent dictionary entries. This leads to two hindrances. First, dictionary entries are constrained by the single-word vocabulary, and thus cannot be fully exploited. Second, semantic representations of language models are known to be anisotropic, but pre-processing word embeddings for DefSent is not allowed because its weight is frozen during training and tied to the prediction layer. In this paper, we propose a novel method to progressively build entry embeddings not subject to the limitations. As a result, definition sentences can be projected into a quasi-isotropic or isotropic vector space of unlimited dictionary entries, so that sentence embeddings of noticeably better quality are attainable. We abbreviate our approach as DefSent+ (a plus version of DefSent), involving the following strengths: 1) the task performance on measuring sentence similarities is significantly improved compared to DefSent; 2) when DefSent+ is used to further train data-augmented models like SIMCSE, SNCSE, and SynCSE, state-of-the-art performance on measuring sentence similarities can be achieved among the approaches without using manually labeled datasets; 3) DefSent+ is also competitive in feature-based transfer for NLP downstream tasks.
- Abstract(参考訳): 本論文は,DefSent として知られる以前の会議報告において,大幅な改善を示すものである。
前回の研究では、定義文を辞書エントリのベクトル空間に投影することで、言語モデルの文埋め込みを改善することを目的としている。
言語モデルの単語埋め込みによる辞書エントリ表現の方法論的制限により,本手法は十分に検討されていないことが判明した。
これは2つの障害に繋がる。
まず、辞書のエントリは単一の単語の語彙によって制約されるため、完全には利用できない。
第二に、言語モデルのセマンティック表現は異方性であることが知られているが、トレーニング中にその重みが凍結され、予測層に結びついているため、DefSentの事前処理ワード埋め込みは許されない。
本稿では,制約を満たさない進入埋め込みを段階的に構築する手法を提案する。
その結果、定義文を無限辞書エントリの準等方的あるいは等方的ベクトル空間に投影することができ、顕著に優れた品質の文埋め込みを実現することができる。
私たちはアプローチをDefSent+(DefSentのプラスバージョン)と略しています。
1) 文類似度の測定におけるタスク性能は、DefSentよりも大幅に向上する。
2) SIMCSE、SNCSE、SynCSEなどのデータ拡張モデルのトレーニングにDefSent+を使用する場合、手動でラベル付けされたデータセットを使わずに、文の類似性の測定における最先端のパフォーマンスを実現することができる。
3)DefSent+はNLPダウンストリームタスクの機能ベースの転送でも競合する。
関連論文リスト
- Word-Level Representation From Bytes For Language Modeling [46.28198397863388]
サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。
Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
論文 参考訳(メタデータ) (2022-11-23T03:11:13Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - DefSent: Sentence Embeddings using Definition Sentences [8.08585816311037]
単語辞書から定義文を使用する文埋め込み手法であるDefSentを提案する。
DefSentは、追加のデータセットを構築することなく、NLIデータセットを使用するメソッドよりも広く適用できる。
論文 参考訳(メタデータ) (2021-05-10T13:13:39Z) - Dictionary-based Debiasing of Pre-trained Word Embeddings [28.378270372391498]
予め訓練された単語埋め込みを辞書で解読する手法を提案する。
提案手法では,単語リストの形で事前に定義するバイアスの種類は必要としない。
標準ベンチマークデータセットの実験結果から,前訓練された単語埋め込みにエンコードされた不公平なバイアスを正確に除去できることが示された。
論文 参考訳(メタデータ) (2021-01-23T15:44:23Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Attention Word Embedding [23.997145283950346]
本稿では,アテンションワード埋め込み(AWE)モデルを紹介し,アテンションメカニズムをCBOWモデルに統合する。
また,サブワード情報を組み込んだAWE-Sを提案する。
AWEとAWE-Sは、様々な単語類似性データセット上で、最先端の単語埋め込みモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-01T14:47:48Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。