論文の概要: The Impact of Subword Pooling Strategy for Cross-lingual Event Detection
- arxiv url: http://arxiv.org/abs/2302.11365v1
- Date: Wed, 22 Feb 2023 13:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:03:18.760778
- Title: The Impact of Subword Pooling Strategy for Cross-lingual Event Detection
- Title(参考訳): 言語間イベント検出におけるサブワードプーリング戦略の効果
- Authors: Shantanu Agarwal, Steven Fincke, Chris Jenkins, Scott Miller,
Elizabeth Boschee
- Abstract要約: プーリング戦略は、サブワード表現を入力として、ワード全体の表現を出力する。
プール戦略の選択は、対象言語の性能に重大な影響を与える可能性があることを示す。
多様な多言語データセットにおいて、9言語にまたがる5つの異なるプール戦略を用いて分析を行う。
- 参考スコア(独自算出の注目度): 2.3361634876233817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained multilingual language models (e.g., mBERT, XLM-RoBERTa) have
significantly advanced the state-of-the-art for zero-shot cross-lingual
information extraction. These language models ubiquitously rely on word
segmentation techniques that break a word into smaller constituent subwords.
Therefore, all word labeling tasks (e.g. named entity recognition, event
detection, etc.), necessitate a pooling strategy that takes the subword
representations as input and outputs a representation for the entire word.
Taking the task of cross-lingual event detection as a motivating example, we
show that the choice of pooling strategy can have a significant impact on the
target language performance. For example, the performance varies by up to 16
absolute $f_{1}$ points depending on the pooling strategy when training in
English and testing in Arabic on the ACE task. We carry out our analysis with
five different pooling strategies across nine languages in diverse
multi-lingual datasets. Across configurations, we find that the canonical
strategy of taking just the first subword to represent the entire word is
usually sub-optimal. On the other hand, we show that attention pooling is
robust to language and dataset variations by being either the best or close to
the optimal strategy. For reproducibility, we make our code available at
https://github.com/isi-boston/ed-pooling.
- Abstract(参考訳): 事前訓練された多言語モデル(例:mBERT、XLM-RoBERTa)は、ゼロショット言語間情報抽出のための最先端技術を大幅に進歩させた。
これらの言語モデルは、単語を小さなサブワードに分割するワードセグメンテーション技術に依存している。
したがって、すべての単語ラベリングタスク(例えば、名前付きエンティティ認識、イベント検出など)は、サブワード表現を入力として、単語全体の表現を出力するプーリング戦略を必要とする。
言語間イベント検出のタスクをモチベーションの例として捉えて,プール戦略の選択が対象言語のパフォーマンスに重大な影響を与えることを示す。
例えば、英語でのトレーニングやアラビア語でのaceタスクでのテストにおけるプーリング戦略によって、パフォーマンスは最大16ドルの絶対値f_{1}$ポイントで変化する。
多様な多言語データセットにおいて、9言語にわたる5つの異なるプール戦略を用いて分析を行う。
構成全体にわたって、単語全体を表す最初のサブワードのみを取るという標準的な戦略は、通常、サブ最適である。
一方,アテンションプーリングは,最適戦略に最善か近しいかによって,言語やデータセットのバリエーションに対して頑健であることを示す。
再現性のため、コードはhttps://github.com/isi-boston/ed-poolingで利用可能です。
関連論文リスト
- How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? [38.1823640848362]
大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
LLMは、英語中心のトークン化や語彙に依存するため、非英語のテキストを生成する際にさらに推論ステップを必要とする。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
論文 参考訳(メタデータ) (2024-06-17T12:42:34Z) - Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Everything Is All It Takes: A Multipronged Strategy for Zero-Shot
Cross-Lingual Information Extraction [42.138153925505435]
我々は、新しいアプローチと古いアプローチの組み合わせが、特に言語間の戦略よりも優れたパフォーマンスをもたらすことを示した。
最初の例としては、英語からアラビア語のIEを使用し、イベント抽出、名前付きエンティティ認識、パート・オブ・音声タグ付け、依存性解析などにおいて、強力なパフォーマンスを示す。
すべてのタスクにおいて、ひとつのテクニックセットが最善を尽くすことはないので、ゼロショットトレーニングを改善するために、この作業で記述されたテクニックのさまざまな構成を検討することを、実践者たちに勧めます。
論文 参考訳(メタデータ) (2021-09-14T16:21:14Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Subword Pooling Makes a Difference [0.0]
サブワードプーリングの選択が3つのタスクの下流性能に与える影響について検討する。
形態的タスクでは、「最初のサブワードを選ぶ」が最悪の戦略である。
POSタグ付けでは、どちらの戦略も性能が悪く、サブワードに小さなLSTMを使用するのが最適である。
論文 参考訳(メタデータ) (2021-02-22T09:59:30Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - LAReQA: Language-agnostic answer retrieval from a multilingual pool [29.553907688813347]
LAReQAによる言語間アライメントの「強い」テスト。
機械翻訳による学習データの増強は効果的であることがわかった。
この発見は、言語に依存しない検索は、言語間評価の実質的な新しいタイプである、という我々の主張を裏付けるものである。
論文 参考訳(メタデータ) (2020-04-11T20:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。