論文の概要: ELMo and BERT in semantic change detection for Russian
- arxiv url: http://arxiv.org/abs/2010.03481v1
- Date: Wed, 7 Oct 2020 15:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:20:32.584570
- Title: ELMo and BERT in semantic change detection for Russian
- Title(参考訳): ロシアにおける意味変化検出におけるELMoとBERT
- Authors: Julia Rodina, Yuliya Trofimova, Andrey Kutuzov, Ekaterina Artemova
- Abstract要約: 本研究では,ロシア語データに対するダイアクロニック・セマンティック・チェンジ検出の課題に対する文脈的埋め込みの有効性について検討した。
評価試験セットはロシア語の名詞と形容詞からなり、ソ連前、ソ連後、ソビエト連邦の時代に作成されたテキストに注釈が付けられている。
- 参考スコア(独自算出の注目度): 4.389735175149927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effectiveness of contextualized embeddings for the task of
diachronic semantic change detection for Russian language data. Evaluation test
sets consist of Russian nouns and adjectives annotated based on their
occurrences in texts created in pre-Soviet, Soviet and post-Soviet time
periods. ELMo and BERT architectures are compared on the task of ranking
Russian words according to the degree of their semantic change over time. We
use several methods for aggregation of contextualized embeddings from these
architectures and evaluate their performance. Finally, we compare unsupervised
and supervised techniques in this task.
- Abstract(参考訳): 本研究では,ロシア語データに対する意味的変化検出タスクにおける文脈的埋め込みの有効性について検討する。
評価試験セットは、ソ連前、ソ連後、ソ連後の各期間に作成されたテキストにその出現に基づいてアノテートされたロシア語の名詞と形容詞からなる。
ELMoとBERTのアーキテクチャは、ロシア語の単語を時間とともに意味的変化の度合いに応じてランク付けするタスクで比較される。
我々は,これらのアーキテクチャからの文脈的埋め込みの集約にいくつかの手法を使用し,それらの性能を評価する。
最後に,この課題における教師なし技術と教師なし技術を比較した。
関連論文リスト
- The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design [39.80182519545138]
本稿では,ロシア語の埋め込みモデルに関する研究に焦点をあてる。
ru-en-RoSBERTaと呼ばれる新しいロシアの埋め込みモデルとruMTEBベンチマークを導入している。
論文 参考訳(メタデータ) (2024-08-22T15:53:23Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic
Analysis [3.2851864672627618]
本稿では,英語のバランスを保ったコーパスに基づいて,事前学習したBERTベースの言語モデルHistBERTを提案する。
単語類似性および意味変化解析における有望な結果を報告する。
論文 参考訳(メタデータ) (2022-02-08T02:53:48Z) - Three-part diachronic semantic change dataset for Russian [4.7566046630595755]
我々は、ロシア語のRuShiftEvalに対して、手動で注釈付き語彙意味変化データセットを提示する。
その斬新さは、3つの期間にわたるダイアクロニックなセマンティックシフトにアノテートされた1組の標的単語によって保証される。
論文 参考訳(メタデータ) (2021-06-15T17:12:25Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - RuSemShift: a dataset of historical lexical semantic change in Russian [3.261599248682794]
本稿では,ロシア語で意味変化モデリングを行うための大規模手動アノテートテストセットRuSemShiftを提案する。
ターゲット語は複数のクラウドソースワーカーによって注釈付けされた。
本稿では,RuSemShiftにおける分散手法の性能について報告する。
論文 参考訳(メタデータ) (2020-10-13T14:54:05Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Dataset for Automatic Summarization of Russian News [0.0]
ロシアのニュースを要約する最初のデータセットであるGazetaを紹介します。
このデータセットがロシア語のテキスト要約手法の有効なタスクであることを実証する。
論文 参考訳(メタデータ) (2020-06-19T10:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。