論文の概要: HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic
Analysis
- arxiv url: http://arxiv.org/abs/2202.03612v1
- Date: Tue, 8 Feb 2022 02:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 02:58:00.269161
- Title: HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic
Analysis
- Title(参考訳): HistBERT:Diachronic Lexical Semantic Analysisのための事前学習型言語モデル
- Authors: Wenjun Qiu, Yang Xu
- Abstract要約: 本稿では,英語のバランスを保ったコーパスに基づいて,事前学習したBERTベースの言語モデルHistBERTを提案する。
単語類似性および意味変化解析における有望な結果を報告する。
- 参考スコア(独自算出の注目度): 3.2851864672627618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextualized word embeddings have demonstrated state-of-the-art performance
in various natural language processing tasks including those that concern
historical semantic change. However, language models such as BERT was trained
primarily on contemporary corpus data. To investigate whether training on
historical corpus data improves diachronic semantic analysis, we present a
pre-trained BERT-based language model, HistBERT, trained on the balanced Corpus
of Historical American English. We examine the effectiveness of our approach by
comparing the performance of the original BERT and that of HistBERT, and we
report promising results in word similarity and semantic shift analysis. Our
work suggests that the effectiveness of contextual embeddings in diachronic
semantic analysis is dependent on the temporal profile of the input text and
care should be taken in applying this methodology to study historical semantic
change.
- Abstract(参考訳): 文脈化された単語埋め込みは、歴史的意味変化に関するものを含む様々な自然言語処理タスクにおいて最先端のパフォーマンスを示している。
しかし、BERTのような言語モデルは、主に現代のコーパスデータに基づいて訓練された。
過去のコーパスデータによるトレーニングがダイアクロニック・セマンティック・アナリティクスを改善するかどうかを検討するため, 従来のアメリカ英語コーパスをトレーニングしたBERTベースの言語モデルHistBERTを提案する。
提案手法の有効性を,元のBERTとHistBERTの性能を比較して検討し,単語の類似性および意味変化解析における有望な結果を報告する。
本研究は,ダイアクロニック意味解析における文脈埋め込みの有効性が入力テキストの時間的プロファイルに依存することを示唆し,この手法を歴史的意味変化の研究に応用すべきである。
関連論文リスト
- Comparative Analysis of Static and Contextual Embeddings for Analyzing Semantic Changes in Medieval Latin Charters [6.883666189245419]
本稿では,意味変化の前と後のコンクエストに関する最初の計算解析について述べる。
これは、わずかな歴史的データセットにおける静的な埋め込みと文脈的な埋め込みを体系的に比較した最初のものである。
既存の研究と一致して,文脈埋め込みは意味変化を捉える上で,静的な単語埋め込みよりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-11T22:19:17Z) - Distilling Monolingual and Crosslingual Word-in-Context Representations [18.87665111304974]
本研究では,単言語と言語間の両方の設定において,事前学習した言語モデルから文脈における単語の意味表現を除去する手法を提案する。
本手法では,事前学習したモデルのコーパスやパラメータの更新は不要である。
本手法は,事前学習したモデルの異なる隠れ層の出力を自己注意を用いて組み合わせることから学習する。
論文 参考訳(メタデータ) (2024-09-13T11:10:16Z) - MACT: Model-Agnostic Cross-Lingual Training for Discourse Representation Structure Parsing [4.536003573070846]
意味表現解析モデルのための言語間学習戦略を導入する。
事前訓練された言語モデルにエンコードされた言語間のアライメントを利用する。
実験では、英語、ドイツ語、イタリア語、オランダ語におけるDRS節とグラフ解析の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-03T07:02:57Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。