論文の概要: Minimal Pair-Based Evaluation of Code-Switching
- arxiv url: http://arxiv.org/abs/2506.01840v1
- Date: Mon, 02 Jun 2025 16:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.773808
- Title: Minimal Pair-Based Evaluation of Code-Switching
- Title(参考訳): コードスイッチングの最小ペアによる評価
- Authors: Igor Sterner, Simone Teufel,
- Abstract要約: 既存のメソッドは言語の範囲が広いわけではなく、多様なコードスイッチング現象を考慮できないか、スケールしない。
本稿では,CSの最小対に基づく介入を提案し,各最小対は自然発生のCS文と最小操作の変種を含む。
我々の人間実験は、すべての言語ペアにおいて、バイリンガルが自然発生のCS文を常に好んでいることを示している。
- 参考スコア(独自算出の注目度): 2.100960337325026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a lack of an evaluation methodology that estimates the extent to which large language models (LLMs) use code-switching (CS) in the same way as bilinguals. Existing methods do not have wide language coverage, fail to account for the diverse range of CS phenomena, or do not scale. We propose an intervention based on minimal pairs of CS. Each minimal pair contains one naturally occurring CS sentence and one minimally manipulated variant. We collect up to 1,000 such pairs each for 11 language pairs. Our human experiments show that, for every language pair, bilinguals consistently prefer the naturally occurring CS sentence. Meanwhile our experiments with current LLMs show that the larger the model, the more consistently it assigns higher probability to the naturally occurring CS sentence than to the variant. In accordance with theoretical claims, the largest probability differences arise in those pairs where the manipulated material consisted of closed-class words.
- Abstract(参考訳): 大規模言語モデル(LLM)がバイリンガルと同じ方法でコードスイッチング(CS)を使用する程度を推定する評価方法論が欠如している。
既存の手法は言語の範囲が広いわけではなく、多様なCS現象を考慮できないか、スケールしない。
最小対のCSに基づく介入を提案する。
各最小ペアは自然発生のCS文と最小操作の変種を含む。
私たちは、11の言語ペアに対して、最大1000のそのようなペアを収集します。
我々の人間実験は、すべての言語ペアにおいて、バイリンガルが自然発生のCS文を常に好んでいることを示している。
一方、現在のLCMを用いた実験では、モデルが大きいほど自然発生のCS文に変種よりも高い確率を割り当てることがわかった。
理論的な主張に従って、操作された物質が閉クラスな単語で構成されている場合において、最大の確率差が生じる。
関連論文リスト
- Code-Switching and Syntax: A Large-Scale Experiment [2.100960337325026]
構文だけでは、最小ペアのコードスイッチング人間の文を区別する自動システムには十分であることを示す。
学習した構文パターンは、目に見えない言語ペアによく一般化する。
論文 参考訳(メタデータ) (2025-06-02T16:32:14Z) - ConCSE: Unified Contrastive Learning and Augmentation for Code-Switched Embeddings [4.68732641979009]
本稿では、2つの言語が1つの発話の中で交わるコードスイッチング(CS)現象について検討する。
我々は、他の言語におけるCSの現在の等価制約(EC)理論は、部分的にしか英語と韓国のCSの複雑さを捉えていないことを強調した。
我々は,このような課題を緩和するために,英語と韓国のCSシナリオに適した新しいKoglishデータセットを提案する。
論文 参考訳(メタデータ) (2024-08-28T11:27:21Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。