論文の概要: Discriminating Form and Meaning in Multilingual Models with Minimal-Pair ABX Tasks
- arxiv url: http://arxiv.org/abs/2505.17747v2
- Date: Mon, 02 Jun 2025 12:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.436654
- Title: Discriminating Form and Meaning in Multilingual Models with Minimal-Pair ABX Tasks
- Title(参考訳): 最小対ABXタスクを持つ多言語モデルの識別形式と意味
- Authors: Maureen de Seyssel, Jie Chi, Skyler Seto, Maartje ter Hoeve, Masha Fedzechkina, Natalie Schluter,
- Abstract要約: 多言語言語モデルが言語アイデンティティ(形式)と意味コンテンツ(意味)をどのように表現するかを評価するために、トレーニング不要なABXスタイルの識別タスクを導入する。
音声処理から着想を得たこれらのゼロショットタスクは、表現の最小差を確実に検出できるかどうかを測定する。
- 参考スコア(独自算出の注目度): 7.028453333841694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a set of training-free ABX-style discrimination tasks to evaluate how multilingual language models represent language identity (form) and semantic content (meaning). Inspired from speech processing, these zero-shot tasks measure whether minimal differences in representation can be reliably detected. This offers a flexible and interpretable alternative to probing. Applied to XLM-R (Conneau et al, 2020) across pretraining checkpoints and layers, we find that language discrimination declines over training and becomes concentrated in lower layers, while meaning discrimination strengthens over time and stabilizes in deeper layers. We then explore probing tasks, showing some alignment between our metrics and linguistic learning performance. Our results position ABX tasks as a lightweight framework for analyzing the structure of multilingual representations.
- Abstract(参考訳): 本稿では,多言語言語モデルが言語同一性(形式)と意味的内容(意味)をどのように表現するかを評価するために,トレーニング不要なABXスタイルの識別タスクを提案する。
音声処理から着想を得たこれらのゼロショットタスクは、表現の最小差を確実に検出できるかどうかを測定する。
これは、探索の柔軟性と解釈可能な代替手段を提供する。
XLM-R(Conneau et al, 2020)を事前学習したチェックポイントやレイヤに適用すると、言語差別はトレーニングによって減少し、下位層に集中する一方で、差別は時間とともに強化され、より深い層で安定化することがわかった。
次に、探索タスクについて検討し、メトリクスと言語学習のパフォーマンスのいくつかの整合性を示します。
ABXタスクを多言語表現の構造を解析するための軽量なフレームワークとして位置づけた。
関連論文リスト
- Can you map it to English? The Role of Cross-Lingual Alignment in Multilingual Performance of LLMs [12.334510055293535]
大きな言語モデル (LLMs) は英語のテキストに基づいて事前訓練されており、驚くべき多言語機能を示している。
識別タスクのインスタンスレベルでのアライメントを定量化するために、言語間アライメントメトリクスを導入します。
言語間アライメントの指標は言語レベルでのタスク精度と強く相関するが,サンプルレベルのアライメントは誤予測と正しく区別できないことが多い。
論文 参考訳(メタデータ) (2025-04-13T00:01:22Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [38.18495961129682]
本稿では,大規模セマンティックコーパスを必要としない新たな言語間探索タスクを提案する。
これは、大きな言語モデルによって生成される障害に挑戦するよりも、真の並列文を言語横断的にランク付けするモデルの能力に焦点を当てている。
ニュースドメインにおける言語対であるドイツ語とフランス語のCLSDタスクのケーススタディを作成します。
論文 参考訳(メタデータ) (2025-02-12T18:54:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。