論文の概要: On Efficiently Acquiring Annotations for Multilingual Models
- arxiv url: http://arxiv.org/abs/2204.01016v1
- Date: Sun, 3 Apr 2022 07:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 13:35:53.682315
- Title: On Efficiently Acquiring Annotations for Multilingual Models
- Title(参考訳): 多言語モデルに対する効率的なアノテーション獲得について
- Authors: Joel Ruben Antony Moniz, Barun Patra, Matthew R. Gormley
- Abstract要約: 一つのモデルを用いて複数の言語にまたがる共同学習の戦略は、上記の選択肢よりもかなり優れていることを示す。
この単純なアプローチにより、アノテーションの予算を不確実な言語に問い合わせることによって、モデルがデータ効率を向上できることを示す。
- 参考スコア(独自算出の注目度): 12.304046317362792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When tasked with supporting multiple languages for a given problem, two
approaches have arisen: training a model for each language with the annotation
budget divided equally among them, and training on a high-resource language
followed by zero-shot transfer to the remaining languages. In this work, we
show that the strategy of joint learning across multiple languages using a
single model performs substantially better than the aforementioned
alternatives. We also demonstrate that active learning provides additional,
complementary benefits. We show that this simple approach enables the model to
be data efficient by allowing it to arbitrate its annotation budget to query
languages it is less certain on. We illustrate the effectiveness of our
proposed method on a diverse set of tasks: a classification task with 4
languages, a sequence tagging task with 4 languages and a dependency parsing
task with 5 languages. Our proposed method, whilst simple, substantially
outperforms the other viable alternatives for building a model in a
multilingual setting under constrained budgets.
- Abstract(参考訳): 与えられた問題に対して複数の言語をサポートするタスクを課すと、アノテーション予算が等しく分かれた各言語に対するモデルトレーニングと、高リソース言語でのトレーニングと、残りの言語へのゼロショット転送という2つのアプローチが生まれている。
本研究では,単一モデルを用いた複数言語共同学習の戦略が,前述の代替手法よりも大幅に優れていることを示す。
また、アクティブラーニングが追加で補完的なメリットをもたらすことも示しています。
この単純なアプローチにより、アノテーションの予算を不確実な言語に問い合わせることによって、モデルをデータ効率を高めることができることを示す。
提案手法は,4言語対応の分類タスク,4言語対応のシーケンスタグ付けタスク,5言語対応の依存関係解析タスクの多種多様なタスクにおいて有効であることを示す。
提案手法は,制約付き予算下での多言語環境でのモデル構築において,他の実現可能な選択肢よりも大幅に優れる。
関連論文リスト
- Multilingual Entity and Relation Extraction from Unified to
Language-specific Training [29.778332361215636]
エンティティと関係抽出タスクの既存のアプローチは、主に英語のコーパスに焦点を当て、他の言語を無視している。
言語干渉を軽減するために,2段階の多言語学習手法と,Multilingual Entity and Relation extract framework (mERE) と呼ばれるジョイントモデルを提案する。
本手法はモノリンガル法と多言語ベースライン法の両方に優れる。
論文 参考訳(メタデータ) (2023-01-11T12:26:53Z) - Polyglot Prompt: Multilingual Multitask PrompTraining [35.70124413465395]
異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか?
学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。
論文 参考訳(メタデータ) (2022-04-29T17:40:50Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Meta-Learning for Effective Multi-task and Multilingual Modelling [23.53779501937046]
タスクと言語間の相互作用を学ぶためのメタラーニング手法を提案する。
我々は、XTREME多言語ベンチマークデータセットから5つの異なるタスクと6つの異なる言語に関する実験を提示する。
論文 参考訳(メタデータ) (2021-01-25T19:30:26Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。