論文の概要: Unsupervised Contextualized Document Representation
- arxiv url: http://arxiv.org/abs/2109.10509v1
- Date: Wed, 22 Sep 2021 03:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 20:55:21.482716
- Title: Unsupervised Contextualized Document Representation
- Title(参考訳): 教師なし文脈文書表現
- Authors: Ankur Gupta, Vivek Gupta
- Abstract要約: SCDV+BERT(ctxd)は,コンテキスト化されたBERTとSCDVソフトクラスタリングを併用した,シンプルで効果的な教師なし表現である。
我々の埋め込みは,多くの分類データセット上で,オリジナルのSCDV,プレトレーニングBERT,その他いくつかのベースラインよりも優れていることを示す。
さらに, SCDV+BERT(ctxd)は, 限られたデータを持つシナリオにおいて, 細管BERTと異なる埋め込みアプローチより優れていることを示す。
- 参考スコア(独自算出の注目度): 6.434361163743876
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Several NLP tasks need the effective representation of text documents. Arora
et. al., 2017 demonstrate that simple weighted averaging of word vectors
frequently outperforms neural models. SCDV (Mekala et. al., 2017) further
extends this from sentences to documents by employing soft and sparse
clustering over pre-computed word vectors. However, both techniques ignore the
polysemy and contextual character of words. In this paper, we address this
issue by proposing SCDV+BERT(ctxd), a simple and effective unsupervised
representation that combines contextualized BERT (Devlin et al., 2019) based
word embedding for word sense disambiguation with SCDV soft clustering
approach. We show that our embeddings outperform original SCDV, pre-train BERT,
and several other baselines on many classification datasets. We also
demonstrate our embeddings effectiveness on other tasks, such as concept
matching and sentence similarity. In addition, we show that SCDV+BERT(ctxd)
outperforms fine-tune BERT and different embedding approaches in scenarios with
limited data and only few shots examples.
- Abstract(参考訳): いくつかのNLPタスクは、テキスト文書の効果的な表現を必要とする。
Aroraなど。
2017年、単語ベクトルの単純な重み付け平均化が、しばしば神経モデルを上回ることを示した。
scdv (mekala et. al., 2017) は、プリ計算された単語ベクトルに対してソフトでスパースなクラスタリングを使用することで、文から文書までさらにこれを拡張している。
しかし、どちらの技法も単語の多義性や文脈性を無視している。
本稿では,SCDV+BERT(ctxd)という,文脈適応型BERT(Devlin et al., 2019)に基づく単語埋め込みとSCDVソフトクラスタリング手法を組み合わせた,シンプルで効果的な非教師付き表現を提案する。
我々の埋め込みは,多くの分類データセット上で,オリジナルのSCDV,プレトレーニングBERT,その他いくつかのベースラインよりも優れていることを示す。
また,概念マッチングや文類似性など,他のタスクに対する埋め込みの有効性を示す。
さらに, SCDV+BERT(ctxd) は, 限られたデータと少数のショット例しか持たないシナリオにおいて, 細管BERT と異なる埋め込みアプローチより優れていることを示す。
関連論文リスト
- BERT or FastText? A Comparative Analysis of Contextual as well as Non-Contextual Embeddings [0.4194295877935868]
埋め込みの選択は、NLPタスクのパフォーマンス向上に重要な役割を果たす。
本研究では,Marathi言語固有のNLP分類タスクに,コンテキストBERTベース,非コンテキストBERTベース,FastTextベースの様々な埋め込み技術が与える影響について検討する。
論文 参考訳(メタデータ) (2024-11-26T18:25:57Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Improving Contextual Representation with Gloss Regularized Pre-training [9.589252392388758]
本稿では,単語の意味的類似性を高めるため,BERT事前学習(GR-BERT)に補助的なグロース正規化モジュールを提案する。
マスクされた単語を予測し、コンテキスト埋め込みを対応するグルースに同時にアライメントすることにより、単語の類似性を明示的にモデル化することができる。
実験結果から,単語レベルおよび文レベルの意味表現において,Gloss regularizerはBERTの恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2022-05-13T12:50:32Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - An Unsupervised Sentence Embedding Method by Mutual Information
Maximization [34.947950543830686]
SBERT(Sentence BERT)はクラスタリングやセマンティックサーチのような文対タスクでは非効率である。
本稿では,BERT上での軽量な拡張と,新たな自己教師型学習目標を提案する。
我々の方法は、異なるドメイン固有のコーパスに適用できるようなラベル付きデータの可用性に制限されない。
論文 参考訳(メタデータ) (2020-09-25T07:16:51Z) - Attention Word Embedding [23.997145283950346]
本稿では,アテンションワード埋め込み(AWE)モデルを紹介し,アテンションメカニズムをCBOWモデルに統合する。
また,サブワード情報を組み込んだAWE-Sを提案する。
AWEとAWE-Sは、様々な単語類似性データセット上で、最先端の単語埋め込みモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-01T14:47:48Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - SBERT-WK: A Sentence Embedding Method by Dissecting BERT-based Word
Models [43.18970770343777]
BERTと呼ばれる文脈化された単語表現は、非常に少数のNLPタスクで最先端のパフォーマンスを達成する。
しかし、BERTベースの単語モデルから高品質な文表現を生成することは、オープンな問題である。
本稿では,単語表現に代表される空間の幾何学的解析により,BERTに基づく単語モデルを切り離すことにより,新しい文埋め込み手法を提案する。
論文 参考訳(メタデータ) (2020-02-16T19:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。