論文の概要: Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2305.10786v2
- Date: Mon, 23 Oct 2023 06:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:35:55.584797
- Title: Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings
- Title(参考訳): ditto: 文埋め込みを改善するためのシンプルで効率的なアプローチ
- Authors: Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Chong Deng, Hai Yu,
Jiaqing Liu, Yukun Ma, Chong Zhang
- Abstract要約: 事前訓練された言語モデルからの文の埋め込みは、非形式的な単語に対するバイアスに悩まされる。
モデルに基づく重要度推定で単語を重み付けする,シンプルで効率的な非教師付きアプローチであるDiagonal Attention Pooling (Ditto)を提案する。
本稿では,Dittoが異方性問題を緩和し,意味的テキスト類似性タスクの事前学習モデルを改善することを示す。
- 参考スコア(独自算出の注目度): 29.273438110694574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior studies diagnose the anisotropy problem in sentence representations
from pre-trained language models, e.g., BERT, without fine-tuning. Our analysis
reveals that the sentence embeddings from BERT suffer from a bias towards
uninformative words, limiting the performance in semantic textual similarity
(STS) tasks. To address this bias, we propose a simple and efficient
unsupervised approach, Diagonal Attention Pooling (Ditto), which weights words
with model-based importance estimations and computes the weighted average of
word representations from pre-trained models as sentence embeddings. Ditto can
be easily applied to any pre-trained language model as a postprocessing
operation. Compared to prior sentence embedding approaches, Ditto does not add
parameters nor requires any learning. Empirical evaluations demonstrate that
our proposed Ditto can alleviate the anisotropy problem and improve various
pre-trained models on STS tasks.
- Abstract(参考訳): 先行研究は、未学習言語モデル(例えばBERT)の文表現における異方性問題を微調整なしで診断する。
解析の結果,BERTの埋め込み文は非形式的単語に対する偏りに悩まされ,意味的テキスト類似性(STS)タスクのパフォーマンスが制限されることがわかった。
このバイアスに対処するために、モデルに基づく重要度推定で単語を重み付けし、文埋め込みとして事前学習されたモデルからの単語表現の重み付け平均を計算する、シンプルで効率的な非教師付きアプローチであるDiagonal Attention Pooling (Ditto)を提案する。
Dittoは、任意のトレーニング済み言語モデルに対して、後処理操作として簡単に適用できる。
先行文埋め込みアプローチと比較して、dittoはパラメータを追加せず、学習も必要としない。
実験により,提案したDittoは異方性問題を緩和し,STSタスクにおける各種事前学習モデルを改善することができることが示された。
関連論文リスト
- Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting
BERT [29.04485839262945]
本稿では,事前学習した言語モデル(例えばBERT)をパラメータフリーで解析する手法を提案する。
本手法では,探索作業の直接の監督や,探索プロセスへの追加パラメータの導入は不要である。
BERTを用いた実験により, BERTから回収した構文木は, 言語的に非インフォームされたベースラインよりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-30T14:02:29Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。