論文の概要: UDPipe at EvaLatin 2020: Contextualized Embeddings and Treebank
Embeddings
- arxiv url: http://arxiv.org/abs/2006.03687v1
- Date: Fri, 5 Jun 2020 21:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:53:04.850702
- Title: UDPipe at EvaLatin 2020: Contextualized Embeddings and Treebank
Embeddings
- Title(参考訳): UDPipe at EvaLatin 2020: コンテキスト化された埋め込みとツリーバンクの埋め込み
- Authors: Milan Straka, Jana Strakov\'a
- Abstract要約: EvaLatin共有タスクへのコントリビューションは,NLPツールをラテン語で評価するための最初の評価キャンペーンである。
我々は,CoNLL 2018 Shared Taskの勝者の1人であるUDPipe 2.0に基づくシステムを提出した。
アブレーション実験では, BERT と XLM-RoBERTa の文脈埋め込みの影響も評価した。
- 参考スコア(独自算出の注目度): 2.8273701718153563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our contribution to the EvaLatin shared task, which is the first
evaluation campaign devoted to the evaluation of NLP tools for Latin. We
submitted a system based on UDPipe 2.0, one of the winners of the CoNLL 2018
Shared Task, The 2018 Shared Task on Extrinsic Parser Evaluation and SIGMORPHON
2019 Shared Task. Our system places first by a wide margin both in
lemmatization and POS tagging in the open modality, where additional supervised
data is allowed, in which case we utilize all Universal Dependency Latin
treebanks. In the closed modality, where only the EvaLatin training data is
allowed, our system achieves the best performance in lemmatization and in
classical subtask of POS tagging, while reaching second place in cross-genre
and cross-time settings. In the ablation experiments, we also evaluate the
influence of BERT and XLM-RoBERTa contextualized embeddings, and the treebank
encodings of the different flavors of Latin treebanks.
- Abstract(参考訳): EvaLatin共有タスクへのコントリビューションは,NLPツールをラテン語で評価するための最初の評価キャンペーンである。
我々は,CoNLL 2018 Shared Task, The 2018 Shared Task on Extrinsic Parser Evaluation, SIGMORPHON 2019 Shared Taskの勝者の一人であるUDPipe 2.0に基づくシステムを提出した。
まず,オープンモダリティ(オープンモダリティ)における補間とposタグの双方において,教師付きデータの追加を許可し,その場合,すべての普遍依存ラテン・ツリーバンクを利用する。
EvaLatinのトレーニングデータのみを許すクローズドモダリティでは,クロスジェネリクスとクロスタイムセッティングで2位となりながら,従来のPOSタギングのサブタスクで最高の性能を達成する。
アブレーション実験では, BERT と XLM-RoBERTa の文脈的埋め込みの影響や, ラテン木バンクの異なるフレーバーのツリーバンクエンコーディングの影響も評価した。
関連論文リスト
- TartuNLP at EvaLatin 2024: Emotion Polarity Detection [0.21485350418225246]
本稿では,EvaLatin 2024における感情極性検出のタスクを,TartuNLPチームに提出した。
本システムでは, 教師あり学習のためのトレーニングデータアノテート手法として, 1) オーガナイザが提供するレキシコンを用いて極性に基づくラベルを作成し, 2) GPT4でラベルを生成する。
この結果から,LLMによるアノテーションはラテン語のテキストに対して有望な結果を示すことがわかった。
論文 参考訳(メタデータ) (2024-05-02T10:28:52Z) - Nostra Domina at EvaLatin 2024: Improving Latin Polarity Detection through Data Augmentation [11.613446814180843]
提案手法は,$k$-meansアルゴリズムを用いて提案する。
ニューラルネットワークにはさまざまなラテン大言語モデル(LLM)が採用されています。
論文 参考訳(メタデータ) (2024-04-11T14:35:23Z) - ÚFAL LatinPipe at EvaLatin 2024: Morphosyntactic Analysis of Latin [1.590106856568323]
我々は、Eva 2024 Dependency Parsingタスクの受賞申請である LatinPipe を提示する。
本システムでは, ベースと大型の事前学習型LMの微調整による結合が構成されている。
一般に公開されている7つのラテンコーパスからのサンプリングによって訓練される。
論文 参考訳(メタデータ) (2024-04-08T20:05:25Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - Distilling Vision-Language Pre-training to Collaborate with
Weakly-Supervised Temporal Action Localization [77.19173283023012]
微弱に監督された時間的アクションローカライゼーションは、カテゴリラベルのみによるアクションインスタンスの検出と分類を学ぶ。
ほとんどの方法は、アクションローカライゼーションのためのビデオ特徴を生成するために、オフザシェルフ分類ベース事前訓練(CBP)を広く採用している。
論文 参考訳(メタデータ) (2022-12-19T10:02:50Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Overview of ADoBo 2021: Automatic Detection of Unassimilated Borrowings
in the Spanish Press [8.950918531231158]
本稿では、IberLef 2021の文脈で提案された、ADoBo 2021共有タスクの主な成果を要約する。
本課題では,スペイン語ニュースワイヤテキスト中の語彙借用(主に英語からの引用)を検出するために参加者を招待した。
参加者に、トレーニング、開発、テスト分割に分割した語彙借入の注釈付きコーパスを提供した。
論文 参考訳(メタデータ) (2021-10-29T11:07:59Z) - KEIS@JUST at SemEval-2020 Task 12: Identifying Multilingual Offensive
Tweets Using Weighted Ensemble and Fine-Tuned BERT [2.105564340986074]
本研究はSemEval-2020 Task 12におけるKEIS@JUST参加について述べる。
2つの主要なアプローチが開発され、最初はアラビア語と英語の両方に取り組み、重み付けされたアンサンブルはBi-GRUとCNNで構成されている。
2つ目は、Bi-LSTMやBi-GRUといったリカレントニューラルネットワークの横にあるBERTからの転送学習である。
論文 参考訳(メタデータ) (2020-05-15T23:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。