論文の概要: CL-IMS @ DIACR-Ita: Volente o Nolente: BERT does not outperform SGNS on
Semantic Change Detection
- arxiv url: http://arxiv.org/abs/2011.07247v2
- Date: Thu, 3 Dec 2020 10:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 13:27:59.657537
- Title: CL-IMS @ DIACR-Ita: Volente o Nolente: BERT does not outperform SGNS on
Semantic Change Detection
- Title(参考訳): CL-IMS @ DIACR-Ita: Volente o Nolente: BERTは意味的変化検出においてSGNSを上回っない
- Authors: Severin Laicher, Gioia Baldissin, Enrique Casta\~neda, Dominik
Schlechtweg, Sabine Schulte im Walde
- Abstract要約: 我々は、トークンベースのBERT埋め込みの平均ペアワイズ距離をタイムポイントとランク5(8)の間の公式ランキングで利用し、精度は.72ドルである。
以上の結果から,語彙的意味変化検出においてBERTの埋め込みを効果的に活用する方法は見つからなかった。
- 参考スコア(独自算出の注目度): 15.70391845537994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the results of our participation in the DIACR-Ita shared task on
lexical semantic change detection for Italian. We exploit Average Pairwise
Distance of token-based BERT embeddings between time points and rank 5 (of 8)
in the official ranking with an accuracy of $.72$. While we tune parameters on
the English data set of SemEval-2020 Task 1 and reach high performance, this
does not translate to the Italian DIACR-Ita data set. Our results show that we
do not manage to find robust ways to exploit BERT embeddings in lexical
semantic change detection.
- Abstract(参考訳): イタリア語の語彙意味変化検出におけるDIACR-Ita共有タスクへの参加について報告する。
我々は、トークンベースのBERT埋め込みの平均ペアワイズ距離をタイムポイントとランク5(8)の間の公式ランキングで利用し、精度は.72ドルである。
SemEval-2020 Task 1の英語データセットにパラメータをチューニングし、高いパフォーマンスを実現するが、これはイタリアのDIACR-Itaデータセットには当てはまらない。
以上の結果から,語彙的意味変化検出においてBERTの埋め込みをうまく活用する方法が見つからないことがわかった。
関連論文リスト
- A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - BERT-LID: Leveraging BERT to Improve Spoken Language Identification [12.179375898668614]
言語識別とは、音声セグメントによって伝達される言語の同一性を自動的に判定するタスクである。
中・長期間の発話において高い精度で言語識別が達成されているにもかかわらず、短い発話のパフォーマンスはまだまだ満足できない。
本稿では,BERTに基づく言語識別システム(BERT-LID)を提案する。
論文 参考訳(メタデータ) (2022-03-01T10:01:25Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - OP-IMS @ DIACR-Ita: Back to the Roots: SGNS+OP+CD still rocks Semantic
Change Detection [19.31318149094267]
我々は,Skip-GramとNegative Smplingに基づく最初期の,最も影響力のある意味変化検出モデルを利用する。
完全に近い精度で共有タスクの入賞申請を得る。
提案手法は,語彙意味変化検出における現在のタスク設定において,従来の型ベースアプローチが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-11-06T10:02:12Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - UoB at SemEval-2020 Task 12: Boosting BERT with Corpus Level Information [0.6980076213134383]
我々は、ソーシャルメディア上での虐待を識別するタスクにおいて、TF-IDF(Term Frequency-Inverse Document Frequency)とBERTの統合の有効性を検証した。
トップパフォーマンスチームの2ポイントとサブタスクB(ターゲット検出)でスコアを獲得し、44チーム中4位にランクインします。
論文 参考訳(メタデータ) (2020-08-19T16:47:15Z) - Exploring Cross-sentence Contexts for Named Entity Recognition with BERT [1.4998865865537996]
本稿では, BERT モデルを用いた NER におけるクロス文情報の利用を5言語で検討する。
BERT入力に追加文の形でコンテキストを追加することで、テスト対象言語やモデル上でのNER性能が向上することがわかった。
そこで本稿では,文の様々な予測を組み合わせ,さらにNER性能を向上させるための簡単な手法であるCMV(Contextual Majority Voting)を提案する。
論文 参考訳(メタデータ) (2020-06-02T12:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。