Fugu-MT 論文翻訳(概要): AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples

論文の概要: AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples

arxiv url: http://arxiv.org/abs/2104.08639v1
Date: Sat, 17 Apr 2021 20:23:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-23 06:37:33.099391
Title: AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples
Title（参考訳）: AM2iCo: 逆例による低リソース言語間の文脈における単語意味評価
Authors: Qianchu Liu, Edoardo M. Ponti, Diana McCarthy, Ivan Vuli\'c, Anna Korhonen
Abstract要約: 本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
参考スコア（独自算出の注目度）: 51.048234591165155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Capturing word meaning in context and distinguishing between correspondences and variations across languages is key to building successful multilingual and cross-lingual text representation models. However, existing multilingual evaluation datasets that evaluate lexical semantics "in-context" have various limitations, in particular, (1) their language coverage is restricted to high-resource languages and skewed in favor of only a few language families and areas, (2) a design that makes the task solvable via superficial cues, which results in artificially inflated (and sometimes super-human) performances of pretrained encoders, on many target languages, which limits their usefulness for model probing and diagnostics, and (3) no support for cross-lingual evaluation. In order to address these gaps, we present AM2iCo, Adversarial and Multilingual Meaning in Context, a wide-coverage cross-lingual and multilingual evaluation set; it aims to faithfully assess the ability of state-of-the-art (SotA) representation models to understand the identity of word meaning in cross-lingual contexts for 14 language pairs. We conduct a series of experiments in a wide range of setups and demonstrate the challenging nature of AM2iCo. The results reveal that current SotA pretrained encoders substantially lag behind human performance, and the largest gaps are observed for low-resource languages and languages dissimilar to English.
Abstract（参考訳）: 文脈における単語の意味の獲得と言語間の対応やバリエーションの区別は、多言語および多言語間のテキスト表現モデルを構築する上で鍵となる。 However, existing multilingual evaluation datasets that evaluate lexical semantics "in-context" have various limitations, in particular, (1) their language coverage is restricted to high-resource languages and skewed in favor of only a few language families and areas, (2) a design that makes the task solvable via superficial cues, which results in artificially inflated (and sometimes super-human) performances of pretrained encoders, on many target languages, which limits their usefulness for model probing and diagnostics, and (3) no support for cross-lingual evaluation. これらのギャップに対処するために, AM2iCo, Adversarial and Multilingual Meaning in Context, a wide-coverage cross-lingual and multilingual evaluation set; 本論文は,14言語対の言語間文脈における単語の意味の同一性を理解するための最先端技術(SotA)表現モデルの能力を忠実に評価することを目的とする。我々は,様々な環境において一連の実験を行い,am2icoの挑戦的な性質を実証する。その結果、現在のSotAの事前学習エンコーダは人間のパフォーマンスにかなり遅れており、低リソース言語や英語と異なる言語では最大のギャップが観察されていることがわかった。

関連論文リスト

Multilinguality Does not Make Sense: Investigating Factors Behind Zero-Shot Transfer in Sense-Aware Tasks [1.571499916304475]
言語間の移動により、モデルはトレーニング中に目に見えない言語でタスクを実行することができる。本研究は,多言語学習が効果的な伝達に必要でもなく,本質的に有益ではないことを示す。
論文参考訳（メタデータ） (2025-05-30T17:36:20Z)
High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。多言語 LLM は非一貫性な言語間アライメントを示す。
論文参考訳（メタデータ） (2025-03-14T10:39:27Z)
Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [38.18495961129682]
本稿では,大規模セマンティックコーパスを必要としない新たな言語間探索タスクを提案する。これは、大きな言語モデルによって生成される障害に挑戦するよりも、真の並列文を言語横断的にランク付けするモデルの能力に焦点を当てている。ニュースドメインにおける言語対であるドイツ語とフランス語のCLSDタスクのケーススタディを作成します。
論文参考訳（メタデータ） (2025-02-12T18:54:37Z)
How does a Multilingual LM Handle Multiple Languages? [0.0]
本研究では,多言語理解,意味表現,言語間知識伝達の能力について批判的に検討する。コサイン類似性を用いた一貫性のための多言語単語埋め込みの分析により意味的類似性を評価する。 BLOOM-1.7B と Qwen2 を Named Entity Recognition と文類似性タスクを通して調べ、それらの言語構造を理解する。
論文参考訳（メタデータ） (2025-02-06T18:08:14Z)
Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文参考訳（メタデータ） (2023-11-14T11:24:08Z)
Are Structural Concepts Universal in Transformer Language Models? Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文参考訳（メタデータ） (2023-10-19T14:50:51Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Tokenization Impacts Multilingual Language Modeling: Assessing Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文参考訳（メタデータ） (2023-05-26T18:06:49Z)
Cross-Lingual Ability of Multilingual Masked Language Models: A Study of Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文参考訳（メタデータ） (2022-03-16T07:09:35Z)
Few-Shot Cross-Lingual Stance Detection with Sentiment-Based Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。 6つの言語ファミリーの12言語で15の多様なデータセットを使用します。実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文参考訳（メタデータ） (2021-09-13T15:20:06Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。