論文の概要: Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text
- arxiv url: http://arxiv.org/abs/2506.14012v1
- Date: Mon, 16 Jun 2025 21:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.250545
- Title: Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text
- Title(参考訳): Lost in the Mix: Code-Switched Text の LLM 理解の評価
- Authors: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang,
- Abstract要約: コードスイッチング(英: Code-switching、CSW)とは、1つの言説の中で2つ以上の言語を交互に行う行為である。
大規模言語モデル(LLM)は現在、コンテンツと通信生成の中心となっている。
- 参考スコア(独自算出の注目度): 25.05270733872823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CSW) is the act of alternating between two or more languages within a single discourse. This phenomenon is widespread in multilingual communities, and increasingly prevalent in online content, where users naturally mix languages in everyday communication. As a result, Large Language Models (LLMs), now central to content processing and generation, are frequently exposed to code-switched inputs. Given their widespread use, it is crucial to understand how LLMs process and reason about such mixed-language text. This paper presents a systematic evaluation of LLM comprehension under code-switching by generating CSW variants of established reasoning and comprehension benchmarks. While degradation is evident when foreign tokens disrupt English text$\unicode{x2013}$even under linguistic constraints$\unicode{x2013}$embedding English into other languages often improves comprehension. Though prompting yields mixed results, fine-tuning offers a more stable path to degradation mitigation.
- Abstract(参考訳): コードスイッチング(英: Code-switching、CSW)とは、1つの言説の中で2つ以上の言語を交互に行う行為である。
この現象は多言語コミュニティに広まり、ユーザーが日常のコミュニケーションで言語を自然に混合するオンラインコンテンツでますます広まりつつある。
その結果、現在コンテンツ処理と生成の中心となっているLarge Language Models (LLMs) は、コードスイッチで入力されることが多い。
広く使われていることを考えると、LLMがどのように処理し、そのような混合言語テキストを理由として扱うかを理解することが不可欠である。
本稿では,確立された推論および理解ベンチマークのCSW変種を生成することで,コードスイッチングによるLLM理解の体系的評価を行う。
外国語のトークンが英語のテキストを乱す場合、言語的な制約の下で$\unicode{x2013}$evenが生成されるが、他の言語への英語の埋め込みはしばしば理解を改善している。
早送りは混合結果をもたらすが、微調整は劣化軽減のためのより安定した経路を提供する。
関連論文リスト
- Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models [49.16690802656554]
複数の言語で意味論的に等価なプロンプトに対して一貫した応答を提供するのに、多言語の事実モデルでは苦労していることがわかった。
最終層での計算をバイパスし,予測精度と言語間の整合性を向上する線形ショートカット手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T19:43:10Z) - CHAI for LLMs: Improving Code-Mixed Translation in Large Language Models through Reinforcement Learning with AI Feedback [11.223762031003671]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示しているが、コード混在(またはコード切替)言語理解に苦慮している。
本稿では,多言語LLMのコード混合言語処理能力を向上させるための新しいフレームワークであるCHAIを提案する。
解析の結果,CHAI を用いた LLM は,コード混在翻訳タスクにおいて,最先端のオープンソース LLM よりも25.66% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-11-13T22:56:00Z) - Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models [16.82812708514889]
1つの会話で2つ以上の言語を交互に交互に行うコードスイッチングは、自然言語処理(NLP)に特有の課題を提示する
既存の研究は構文的制約やニューラルジェネレーションに重点を置いており、言語理論を言語モデル(LLM)と統合して自然なコード変更テキストを生成する努力はほとんどない。
等価制約理論(ECT)とLLMを組み合わせた新しいフレームワークであるEZSwitchを導入する。
論文 参考訳(メタデータ) (2024-10-30T03:03:32Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。