論文の概要: CodeMixBench: Evaluating Code-Mixing Capabilities of LLMs Across 18 Languages
- arxiv url: http://arxiv.org/abs/2507.18791v2
- Date: Sun, 07 Sep 2025 11:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.199466
- Title: CodeMixBench: Evaluating Code-Mixing Capabilities of LLMs Across 18 Languages
- Title(参考訳): CodeMixBench: 18言語にわたるLLMのコードミキシング機能の評価
- Authors: Yilun Yang, Yekun Chai,
- Abstract要約: 会話の中で言語を切り替えるコードミキシングは、従来のNLPに固有の課題をもたらす。
既存のベンチマークは言語ペアとタスクによって制限されており、大きな言語モデル(LLM)のコードミキシング能力を適切に評価することができない。
我々は,LLMに特有の3つのタスク,従来の5つのNLPタスク,および7つの言語ファミリーにわたる18の言語を含む,8つのタスクをカバーする包括的なベンチマークであるCodeMixBenchを紹介した。
- 参考スコア(独自算出の注目度): 10.15537631183956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-mixing, the practice of switching between languages within a conversation, poses unique challenges for traditional NLP. Existing benchmarks are limited by their narrow language pairs and tasks, failing to adequately assess large language models' (LLMs) code-mixing abilities. Despite the recognized importance of code-mixing for multilingual users, research on LLMs in this context remains sparse. Additionally, current techniques for synthesizing code-mixed data are underdeveloped to generate code-mixing. In response, we introduce CodeMixBench, a comprehensive benchmark covering eight tasks, including three specific to LLMs and five traditional NLP tasks, and 18 languages across seven language families. We also propose a new method for generating large-scale synthetic code-mixed texts by combining word substitution with GPT-4 prompting. Our evaluation reveals consistent underperformance of LLMs on code-mixed datasets involving different language families. Enhancements in training data size, model scale, and few-shot learning could improve their performance. The code and dataset are available at https://github.com/Jeromeyluck/CodeMixBench.
- Abstract(参考訳): 会話の中で言語を切り替えるコードミキシングは、従来のNLPに固有の課題をもたらす。
既存のベンチマークは言語ペアとタスクによって制限されており、大きな言語モデル(LLM)のコードミキシング能力を適切に評価することができない。
多言語ユーザにとってのコードミキシングの重要性は認識されているが、この文脈におけるLLMの研究は依然として少ない。
さらに、コードミキシングを生成するために、コードミキシングデータを合成する現在の技術が未開発である。
これに対して,LLMに特有の3つのタスク,従来の5つのNLPタスク,および7つの言語ファミリーにわたる18の言語を含む,8つのタスクを対象とした総合的なベンチマークであるCodeMixBenchを紹介した。
また,単語置換とGPT-4プロンプトを組み合わせることで,大規模合成コード混在テキストを生成する手法を提案する。
本評価では、異なる言語族を含むコード混合データセット上でのLCMの一貫性の低い性能を明らかにした。
トレーニングデータサイズ、モデルスケール、数ショット学習の強化により、パフォーマンスが向上する可能性がある。
コードとデータセットはhttps://github.com/Jeromeyluck/CodeMixBench.comで公開されている。
関連論文リスト
- Can Large Language Models Understand, Reason About, and Generate Code-Switched Text? [26.210664542372168]
コードスイッチングは多言語通信において広く普及する現象であるが、混合言語環境における大規模言語モデル(LLM)の堅牢性は未だ十分に理解されていない。
我々は,16種類の並列コード切替言語ペアの変種からなる,高品質なヒューマンアノテーションを備えた新しいベンチマークであるCodeMixQAを紹介する。
コードスイッチングされた質問応答タスクにおけるLCMの推論動作を分析し、混合言語入力に対するモデル処理と推論の仕方について光を当てる。
論文 参考訳(メタデータ) (2026-01-12T02:52:38Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Can LLMs Replace Humans During Code Chunking? [2.4056836012742]
大規模言語モデル(LLM)は、特にコード理解と生成に関わるタスクにおいて、コンピュータ科学において重要なツールとなっている。
本稿では,ALC および MUMPS で記述されたレガシ行政コードの近代化における LLM の適用について検討する。
論文 参考訳(メタデータ) (2025-06-24T13:02:35Z) - CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts [0.0]
我々は,コード混合プロンプトからコードを生成する上で,大規模言語モデル(LLM)の堅牢性を評価するための新しいベンチマークであるCodeMixBenchを紹介する。
1.5Bパラメータから15Bパラメータまで,さまざまなオープンソースコード生成モデルを包括的に評価した。
その結果、コード混合プロンプトは、英語のみのプロンプトに比べて、常にPass@1のパフォーマンスを低下させることがわかった。
論文 参考訳(メタデータ) (2025-05-08T08:55:32Z) - CHAI for LLMs: Improving Code-Mixed Translation in Large Language Models through Reinforcement Learning with AI Feedback [11.223762031003671]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示しているが、コード混在(またはコード切替)言語理解に苦慮している。
本稿では,多言語LLMのコード混合言語処理能力を向上させるための新しいフレームワークであるCHAIを提案する。
解析の結果,CHAI を用いた LLM は,コード混在翻訳タスクにおいて,最先端のオープンソース LLM よりも25.66% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-11-13T22:56:00Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models [16.82812708514889]
1つの会話で2つ以上の言語を交互に交互に行うコードスイッチングは、自然言語処理(NLP)に特有の課題を提示する
既存の研究は構文的制約やニューラルジェネレーションに重点を置いており、言語理論を言語モデル(LLM)と統合して自然なコード変更テキストを生成する努力はほとんどない。
等価制約理論(ECT)とLLMを組み合わせた新しいフレームワークであるEZSwitchを導入する。
論文 参考訳(メタデータ) (2024-10-30T03:03:32Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Code-Mixer Ya Nahi: Novel Approaches to Measuring Multilingual LLMs' Code-Mixing Capabilities [3.359458926468223]
Rule-Based Promptingは、コードミックス文を生成する新しいプロンプト技術である。
3つの多言語LLMの符号混合MT能力の測定と比較を行った。
また、$k$-shotプロンプトを使用して、多言語LLMの英語翻訳能力に混在するコードを測定する。
論文 参考訳(メタデータ) (2024-10-14T20:40:36Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG
Evaluation [1.2559148369195197]
コードミキシング(Code-mixing)は、2つ以上の言語からの単語とフレーズを1つの発話で混合する現象である。
様々な一般的なメトリクスは、コードミキシングされたNLGタスクではうまく機能しない。
評価指標と人的判断の相関性を大幅に改善する指標独立評価パイプラインMIPEを提案する。
論文 参考訳(メタデータ) (2021-07-24T05:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。