論文の概要: Everything Is All It Takes: A Multipronged Strategy for Zero-Shot
Cross-Lingual Information Extraction
- arxiv url: http://arxiv.org/abs/2109.06798v1
- Date: Tue, 14 Sep 2021 16:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:38:59.066928
- Title: Everything Is All It Takes: A Multipronged Strategy for Zero-Shot
Cross-Lingual Information Extraction
- Title(参考訳): すべては必要なすべてだ:ゼロショット言語間情報抽出のためのマルチプロンゲット戦略
- Authors: Mahsa Yarmohammadi, Shijie Wu, Marc Marone, Haoran Xu, Seth Ebner,
Guanghui Qin, Yunmo Chen, Jialiang Guo, Craig Harman, Kenton Murray, Aaron
Steven White, Mark Dredze, Benjamin Van Durme
- Abstract要約: 我々は、新しいアプローチと古いアプローチの組み合わせが、特に言語間の戦略よりも優れたパフォーマンスをもたらすことを示した。
最初の例としては、英語からアラビア語のIEを使用し、イベント抽出、名前付きエンティティ認識、パート・オブ・音声タグ付け、依存性解析などにおいて、強力なパフォーマンスを示す。
すべてのタスクにおいて、ひとつのテクニックセットが最善を尽くすことはないので、ゼロショットトレーニングを改善するために、この作業で記述されたテクニックのさまざまな構成を検討することを、実践者たちに勧めます。
- 参考スコア(独自算出の注目度): 42.138153925505435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot cross-lingual information extraction (IE) describes the
construction of an IE model for some target language, given existing
annotations exclusively in some other language, typically English. While the
advance of pretrained multilingual encoders suggests an easy optimism of "train
on English, run on any language", we find through a thorough exploration and
extension of techniques that a combination of approaches, both new and old,
leads to better performance than any one cross-lingual strategy in particular.
We explore techniques including data projection and self-training, and how
different pretrained encoders impact them. We use English-to-Arabic IE as our
initial example, demonstrating strong performance in this setting for event
extraction, named entity recognition, part-of-speech tagging, and dependency
parsing. We then apply data projection and self-training to three tasks across
eight target languages. Because no single set of techniques performs the best
across all tasks, we encourage practitioners to explore various configurations
of the techniques described in this work when seeking to improve on zero-shot
training.
- Abstract(参考訳): ゼロショット言語間情報抽出(IE)は、他の言語(典型的には英語)にのみ既存のアノテーションが与えられた場合、ターゲット言語用のIEモデルの構築を記述する。
事前訓練された多言語エンコーダの進歩は、"英語で学習し、あらゆる言語で実行される"という簡単な楽観主義を示唆する一方で、新しいものと古い両方のアプローチの組み合わせが、特にどの言語横断戦略よりも優れたパフォーマンスをもたらす、徹底的な探索と拡張を通じて見出す。
データプロジェクションや自己学習といったテクニックや,トレーニング済みエンコーダの違いがそれらに与える影響について検討する。
最初の例としては、英語からアラビア語のIEを使用し、イベント抽出、名前付きエンティティ認識、パート・オブ・音声タグ付け、依存性解析などにおいて、強力なパフォーマンスを示している。
次に、8つのターゲット言語にわたる3つのタスクにデータプロジェクションと自己学習を適用します。
単一のテクニックセットがすべてのタスクで最高のパフォーマンスを発揮できないため、ゼロショットトレーニングの改善を目指す際に、この作業で記述されたテクニックのさまざまな構成を実践者に検討するように促しています。
関連論文リスト
- UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。
言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文 参考訳(メタデータ) (2024-06-24T07:27:01Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Mixed Training with Gradient
Optimization in Few-Shot Cross-Lingual Transfer [2.7213511121305465]
本研究では,ソースデータとターゲットデータの両方を学習する1ステップ混合学習手法を提案する。
我々は1つのモデルを使って全てのターゲット言語を同時に処理し、過度に言語固有のモデルを避ける。
提案手法は,全タスクの最先端性能と目標適応性能を高いマージンで向上させる。
論文 参考訳(メタデータ) (2022-04-29T04:05:02Z) - CrossAligner & Co: Zero-Shot Transfer Methods for Task-Oriented
Cross-lingual Natural Language Understanding [18.14437842819122]
CrossAlignerは、ゼロショット・クロスランガル転送のための様々な効果的な手法の主要な方法である。
本稿では,個々の手法と重み付けされた組み合わせの定量的分析を行い,その一部はSOTA(State-of-the-art)スコアを超えている。
最適手法の詳細な定性的誤り解析により、我々の微調整言語モデルが、予想よりも優れたタスク知識をゼロショット転送できることが示される。
論文 参考訳(メタデータ) (2022-03-18T14:18:12Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。