論文の概要: Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and
Approaches to Modeling
- arxiv url: http://arxiv.org/abs/2203.16169v1
- Date: Wed, 30 Mar 2022 09:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 14:43:02.329406
- Title: Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and
Approaches to Modeling
- Title(参考訳): スペイン語における未同化借入の検出:注釈付きコーパスとモデリングへのアプローチ
- Authors: Elena \'Alvarez-Mellado, Constantine Lignos
- Abstract要約: 非同化語彙借入に富んだスペイン語ニュースワイヤの注釈付きコーパスを導入する。
我々は,CRF,BiLSTM-CRF,Transformer-basedモデルなど,複数のシーケンスラベリングモデルがどのように動作するかを評価する。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a new resource for borrowing identification and analyzes
the performance and errors of several models on this task. We introduce a new
annotated corpus of Spanish newswire rich in unassimilated lexical borrowings
-- words from one language that are introduced into another without
orthographic adaptation -- and use it to evaluate how several sequence labeling
models (CRF, BiLSTM-CRF, and Transformer-based models) perform. The corpus
contains 370,000 tokens and is larger, more borrowing-dense, OOV-rich, and
topic-varied than previous corpora available for this task. Our results show
that a BiLSTM-CRF model fed with subword embeddings along with either
Transformer-based embeddings pretrained on codeswitched data or a combination
of contextualized word embeddings outperforms results obtained by a
multilingual BERT-based model.
- Abstract(参考訳): 本研究は、識別のための新しいリソースを提示し、このタスクにおける複数のモデルの性能とエラーを分析する。
本稿では,非同化語彙の語彙借用に富んだスペイン語ニューズワイヤの注釈付きコーパスについて紹介する。このコーパスを用いて,複数のシーケンスラベリングモデル(crf,bilstm-crf,transformer-based model)の性能評価を行う。
コーパスには370,000のトークンが含まれており、このタスクで利用可能な以前のコーパスよりも大きく、借用量が多く、OOV豊かで、トピック価値が高い。
以上の結果から,多言語bertモデルで得られた結果よりも,コード切り換えデータに事前学習したトランスフォーマティブ・組込みやコンテキスト化単語組込みの組み合わせにより,サブワード組込みを付与したbilstm-crfモデルの方が優れていることが示された。
関連論文リスト
- Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Entity-Assisted Language Models for Identifying Check-worthy Sentences [23.792877053142636]
テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
論文 参考訳(メタデータ) (2022-11-19T12:03:30Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - The futility of STILTs for the classification of lexical borrowings in
Spanish [0.0]
STILTは、多言語モデルの直接微調整よりも改善していない。
少数の言語のサブセットでトレーニングされた多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
論文 参考訳(メタデータ) (2021-09-17T15:32:02Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。