論文の概要: IndicEval-XL: Bridging Linguistic Diversity in Code Generation Across Indic Languages
- arxiv url: http://arxiv.org/abs/2502.19067v1
- Date: Wed, 26 Feb 2025 11:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:42.221232
- Title: IndicEval-XL: Bridging Linguistic Diversity in Code Generation Across Indic Languages
- Title(参考訳): IndicEval-XL: インデックス言語間のコード生成における言語多様性のブリッジ
- Authors: Ujjwal Singh, Aditi Sharma, Nikhil Gupta, Deepakshi, Vivek Kumar Jha,
- Abstract要約: IndicEval-XLは6つの主要なIndic言語を組み込んだコード生成のための総合ベンチマークである。
私たちのベンチマークでは、これらの言語を12のプログラミング言語でブリッジし、堅牢な評価フレームワークを作成しています。
IndicEval-XLは、コード生成システムにおける言語多様性の拡大に向けた重要なステップである。
- 参考スコア(独自算出の注目度): 0.7256608493360635
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in code generation from natural language prompts, revolutionizing software development workflows. As we advance towards agent-based development paradigms, these models form the cornerstone of next-generation software development lifecycles. However, current benchmarks for evaluating multilingual code generation capabilities are predominantly English-centric, limiting their applicability across the global developer community. To address this limitation, we present IndicEval-XL, a comprehensive benchmark for code generation that incorporates 6 major Indic languages, collectively spoken by approximately 14\% of the world's population. Our benchmark bridges these languages with 12 programming languages, creating a robust evaluation framework. This work is particularly significant given India's representation of one-eighth of the global population and the crucial role Indic languages play in Indian society. IndicEval-XL represents a significant step toward expanding the linguistic diversity in code generation systems and evaluation frameworks. By developing resources that support multiple languages, we aim to make AI-powered development tools more inclusive and accessible to developers of various linguistic backgrounds. To facilitate further research and development in this direction, we make our dataset and evaluation benchmark publicly available at https://github.com/telekom/IndicEval-XL
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語プロンプトからのコード生成において顕著な能力を示し、ソフトウェア開発ワークフローに革命をもたらした。
エージェントベースの開発パラダイムに進むにつれて、これらのモデルは次世代ソフトウェア開発ライフサイクルの基盤を形成します。
しかしながら、多言語コード生成能力を評価するための現在のベンチマークは、主に英語中心であり、グローバルな開発者コミュニティ全体に適用性を制限する。
この制限に対処するため、IndicEval-XLは6つの主要なIndic言語を包含するコード生成のための包括的なベンチマークであり、世界の人口の約14%が総じて話し合っている。
私たちのベンチマークでは、これらの言語を12のプログラミング言語でブリッジし、堅牢な評価フレームワークを作成しています。
インドが世界人口の8分の1を占め、インド人言語がインド社会で果たす重要な役割を考えると、この研究は特に重要である。
IndicEval-XLは、コード生成システムと評価フレームワークにおける言語多様性の拡大に向けた重要なステップである。
複数の言語をサポートするリソースを開発することで、さまざまな言語バックグラウンドを持つ開発者にAIを活用した開発ツールをより包括的でアクセスしやすいものにすることを目指している。
この方向のさらなる研究と開発を容易にするため、データセットと評価ベンチマークをhttps://github.com/telekom/IndicEval-XLで公開しています。
関連論文リスト
- IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding [2.062076715606512]
インド亜大陸の15億人以上の人々によって知られており、Indic言語は自然言語処理(NLP)の研究に固有の課題と機会を提示している。
IndicMMLU-Proは、Indic言語全体にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-01-27T03:19:03Z) - mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Decoding the Diversity: A Review of the Indic AI Research Landscape [0.7864304771129751]
インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
論文 参考訳(メタデータ) (2024-06-13T19:55:20Z) - IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。