論文の概要: A Taxonomy of Programming Languages for Code Generation
- arxiv url: http://arxiv.org/abs/2604.00239v2
- Date: Tue, 07 Apr 2026 18:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:04.898813
- Title: A Taxonomy of Programming Languages for Code Generation
- Title(参考訳): コード生成のためのプログラミング言語の分類法
- Authors: Nishat Raihan, Christian Newman, Marcos Zampieri,
- Abstract要約: プログラミング言語(PL)の資源層分類は確立されていない。
我々は646言語を4層に分類した最初の再現可能なPLリソース分類を提案する。
7つの主要なコーパスにおいて、すべてのトークンの74.6%を占める言語はわずか1.9%(Tier 3, High)であり、71.7%(Tier 0, Scarce)はわずか1.0%である。
- 参考スコア(独自算出の注目度): 14.413691669763962
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The world's 7,000+ languages vary widely in the availability of resources for NLP, motivating efforts to systematically categorize them by their degree of resourcefulness (Joshi et al., 2020). A similar disparity exists among programming languages (PLs); however, no resource-tier taxonomy has been established for code. As large language models (LLMs) grow increasingly capable of generating code, such a taxonomy becomes essential. To fill this gap, we present the first reproducible PL resource classification, grouping 646 languages into four tiers. We show that only 1.9% of languages (Tier 3, High) account for 74.6% of all tokens in seven major corpora, while 71.7% of languages (Tier 0, Scarce) contribute just 1.0%. Statistical analyses of within-tier inequality, dispersion, and distributional skew confirm that this imbalance is both extreme and systematic. Our results provide a principled framework for dataset curation and tier-aware evaluation of multilingual LLMs.
- Abstract(参考訳): 世界の7000以上の言語は、NLPのリソースが利用可能であり、それらのリソースの程度によってそれらを体系的に分類する努力を動機付けている(Joshi et al , 2020)。
プログラミング言語(PL)には同様の相違があるが、コードに対してリソース層分類が確立されていない。
大きな言語モデル(LLM)がコードを生成する能力が増すにつれて、このような分類が不可欠となる。
このギャップを埋めるために、646言語を4層に分類した最初の再現可能なPLリソース分類を示す。
7つの主要なコーパスにおいて、すべてのトークンの74.6%を占める言語はわずか1.9%(Tier 3, High)であり、71.7%(Tier 0, Scarce)はわずか1.0%である。
層内不等式、分散、分布スキューの統計的解析は、この不均衡が極端かつ体系的であることを証明している。
本結果は,多言語LLMのデータセットキュレーションと階層認識評価のための基本的フレームワークを提供する。
関連論文リスト
- Identifying Concurrency Bug Reports via Linguistic Patterns [5.794959117360381]
本稿では,バグ報告を自動的に識別する言語パターンに基づくフレームワークを提案する。
730件のバグレポートから58件の言語パターンを抽出した。
我々は,従来の機械学習,大規模言語モデル,事前学習された言語モデルにおいて,マッチング,学習,プロンプトベース,微調整の4つの補完的アプローチを評価する。
論文 参考訳(メタデータ) (2026-01-22T21:54:14Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - Mind the Language Gap: Automated and Augmented Evaluation of Bias in LLMs for High- and Low-Resource Languages [1.9851663029480855]
大規模言語モデル(LLM)は、印象的な自然言語処理能力を示したが、しばしばトレーニングデータに固有の社会的バイアスを持続させる。
多言語バイアステスト(MultiLingual Augmented Bias Testing、MLA-BiTe)は,多言語バイアステストの体系化によって,事前バイアス評価手法を改善するフレームワークである。
論文 参考訳(メタデータ) (2025-04-19T16:18:22Z) - UNITYAI-GUARD: Pioneering Toxicity Detection Across Low-Resource Indian Languages [1.8482570829180918]
UnityAI-Guardは、低リソースのインド言語をターゲットにしたバイナリ毒性分類のためのフレームワークである。
提案手法は7言語で平均84.23%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-03-29T14:20:13Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain [0.0]
LATAM、カリブ海、スペインの言語は人工知能(AI)システムで表現する必要があるため、私たちは#Somos600Mプロジェクトを立ち上げた。
世界の人口の7.5%にも拘わらず、インストラクション・チューン・大型言語モデル(LLM)のデータセットは公開されていない。
我々は、教育と評価データセットの最初のバージョンを国際オープンソースコミュニティとして作成する方法について紹介する。
論文 参考訳(メタデータ) (2024-07-01T23:01:41Z) - Multiple Sources are Better Than One: Incorporating External Knowledge in Low-Resource Glossing [10.6453235045045]
我々は,複数の言語的専門知識をコーディネートすることで,低リソース言語におけるデータ駆動グロスリングにおけるデータ不足問題に対処する。
従来の最先端技術に比べて単語レベルの精度は平均で5%向上した。
論文 参考訳(メタデータ) (2024-06-16T22:01:15Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - GlobalBench: A Benchmark for Global Progress in Natural Language
Processing [114.24519009839142]
GlobalBenchは、すべての言語におけるすべてのNLPデータセットの進捗を追跡することを目的としている。
話者当たりのユーティリティと、全言語にわたるテクノロジのエクイティをトラックする。
現在、GlobalBenchは190言語で966のデータセットをカバーしており、62言語にまたがる1,128のシステムサブミッションを持っている。
論文 参考訳(メタデータ) (2023-05-24T04:36:32Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。