論文の概要: \'UFAL at MultiLexNorm 2021: Improving Multilingual Lexical
Normalization by Fine-tuning ByT5
- arxiv url: http://arxiv.org/abs/2110.15248v1
- Date: Thu, 28 Oct 2021 16:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 15:29:08.472160
- Title: \'UFAL at MultiLexNorm 2021: Improving Multilingual Lexical
Normalization by Fine-tuning ByT5
- Title(参考訳): multilexnorm 2021: fine-tuning byt5による多言語語彙正規化の改善
- Authors: David Samuel, Milan Straka
- Abstract要約: We present the winning entry to the Multilingual Lexical Normalization (MultiNorm) shared task at W-NUT 2021 (van der Goot et al., 2021a)
我々は、事前学習されたバイトレベルの言語モデルByT5(Xue et al., 2021a)に基づいて、合成データに基づいて事前学習を行い、その後、真正正規化データに基づいて微調整する。
- 参考スコア(独自算出の注目度): 7.03933364336337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the winning entry to the Multilingual Lexical Normalization
(MultiLexNorm) shared task at W-NUT 2021 (van der Goot et al., 2021a), which
evaluates lexical-normalization systems on 12 social media datasets in 11
languages. We base our solution on a pre-trained byte-level language model,
ByT5 (Xue et al., 2021a), which we further pre-train on synthetic data and then
fine-tune on authentic normalization data. Our system achieves the best
performance by a wide margin in intrinsic evaluation, and also the best
performance in extrinsic evaluation through dependency parsing. The source code
is released at https://github.com/ufal/multilexnorm2021 and the fine-tuned
models at https://huggingface.co/ufal.
- Abstract(参考訳): 本稿では,11言語で12のソーシャルメディアデータセット上で語彙正規化システムを評価するw-nut 2021 (van der goot et al., 2021a) において,多言語語彙正規化 (multilexnorm) の獲得課題について述べる。
我々は、事前学習されたバイトレベルの言語モデルByT5(Xue et al., 2021a)に基づいて、合成データに基づいて事前学習を行い、その後、真正正規化データに基づいて微調整する。
本システムでは,内在性評価の限界が広く,従属性解析による外在性評価の最高性能を達成している。
ソースコードはhttps://github.com/ufal/multilexnorm2021とhttps://huggingface.co/ufalの微調整されたモデルでリリースされている。
関連論文リスト
- T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - TGIF: Tree-Graph Integrated-Format Parser for Enhanced UD with Two-Stage
Generic- to Individual-Language Finetuning [18.71574180551552]
IWPT 2021共有タスクへのコントリビューションについて述べる。
我々のメインシステムコンポーネントはハイブリッドツリーグラフであり、スプレッドツリーに存在しないグラフエッジを付加した拡張グラフに対して、スプレッドツリーの予測を統合する。
論文 参考訳(メタデータ) (2021-07-14T18:00:08Z) - The Volctrans Neural Speech Translation System for IWSLT 2021 [26.058205594318405]
本稿では,Volctrans チームが IWSLT 2021 に提出したシステムについて述べる。
オフライン音声翻訳では,ベンチマークよりも8.1 BLEUの改善を実現している。
テキスト間同時翻訳では,wait-kモデルを最適化する最善の方法を検討する。
論文 参考訳(メタデータ) (2021-05-16T00:11:59Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - iNLTK: Natural Language Toolkit for Indic Languages [0.0]
iNLTKは、トレーニング済みの言語モデルと、データ拡張、テキスト類似性、センテンス埋め込み、ワード埋め込み、トークン化、テキスト生成のためのアウト・オブ・ボックスサポートからなるオープンソースのNLPライブラリである。
論文 参考訳(メタデータ) (2020-09-26T08:21:32Z) - K{\o}psala: Transition-Based Graph Parsing via Efficient Training and
Effective Encoding [13.490365811869719]
We present Kopsala, the Copenhagen-Uppsala system for the Enhanced Universal Dependencies Shared Task at IWPT 2020。
当社のシステムは,拡張解析以外のすべてを対象として,既製のモデルで構成されたパイプラインであり,後者はCheなどから適応した遷移グラフである。
平均的なELASによると、統一パイプラインはRepresentation ParsingとEnhanced Universal Dependenciesの両方に有効であることを示す。
論文 参考訳(メタデータ) (2020-05-25T13:17:09Z) - Automatic Machine Translation Evaluation in Many Languages via Zero-Shot
Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。
我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。
我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文 参考訳(メタデータ) (2020-04-30T03:32:34Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。