論文の概要: Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.07037v2
- Date: Thu, 09 Oct 2025 04:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.592126
- Title: Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
- Title(参考訳): モノリンガル推定を超えて:大規模言語モデルの時代におけるコードスイッチングNLPに関する調査
- Authors: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh,
- Abstract要約: 単一発話における言語とスクリプトの交替であるコードスイッチングは、多言語言語NLPの根本的な課題である。
ほとんどの大規模言語モデル(LLM)は、混合言語入力、限られたCSWデータセット、評価バイアスに苦戦している。
この調査は、CSWを意識したLLM研究308の総合的な分析を初めて提供する。
- 参考スコア(独自算出の注目度): 1.175067374181304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CSW), the alternation of languages and scripts within a single utterance, remains a fundamental challenge for multiling ual NLP, even amidst the rapid advances of large language models (LLMs). Most LLMs still struggle with mixed-language inputs, limited CSW datasets, and evaluation biases, hindering deployment in multilingual societies. This survey provides the first comprehensive analysis of CSW-aware LLM research, reviewing 308 studies spanning five research areas, 12 NLP tasks, 30+ datasets, and 80+ languages. We classify recent advances by architecture, training strategy, and evaluation methodology, outlining how LLMs have reshaped CSW modeling and what challenges persist. The paper concludes with a roadmap emphasizing the need for inclusive datasets, fair evaluation, and linguistically grounded models to achieve truly multilingual intelligence. A curated collection of all resources is maintained at https://github.com/lingo-iitgn/awesome-code-mixing/.
- Abstract(参考訳): Code-switching (CSW) は、言語とスクリプトを1つの発話で置き換えることであり、大規模言語モデル(LLM)の急速な進歩の中でさえ、多言語NLPの基本的な課題である。
ほとんどのLLMは、混合言語入力、限られたCSWデータセット、評価バイアスに苦慮し、多言語社会への展開を妨げる。
この調査は、CSW対応のLSM研究を初めて総合的に分析し、5つの研究領域、12のNLPタスク、30以上のデータセット、80以上の言語にまたがる308の研究をレビューした。
我々は、アーキテクチャ、トレーニング戦略、評価手法による最近の進歩を分類し、LCMがCSWモデリングをどのように作り直し、どのような課題が持続しているかを概説する。
論文は、真に多言語知性を達成するための包括的データセット、公正評価、言語基盤モデルの必要性を強調するロードマップで締めくくっている。
リソースのキュレートされたコレクションはhttps://github.com/lingo-iitgn/awesome-code-mixing/で維持される。
関連論文リスト
- Checklist Engineering Empowers Multilingual LLM Judges [12.64438771302935]
Checklist Engineering ベースの LLM-as-a-Judge (CE-Judge) は、オープンソースのモデルによる多言語評価にチェックリストの直観を使用する、トレーニング不要のフレームワークである。
我々の手法は一般にベースラインを超え、GPT-4oモデルと同等に機能する。
論文 参考訳(メタデータ) (2025-07-09T12:03:06Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。
評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。
本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-19T05:11:46Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。