Fugu-MT 論文翻訳(概要): Measuring The Impact Of Programming Language Distribution

論文の概要: Measuring The Impact Of Programming Language Distribution

arxiv url: http://arxiv.org/abs/2302.01973v3
Date: Wed, 24 May 2023 16:20:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 02:12:20.216408
Title: Measuring The Impact Of Programming Language Distribution
Title（参考訳）: プログラミング言語の分布の影響を測定する
Authors: Gabriel Orlanski, Kefan Xiao, Xavier Garcia, Jeffrey Hui, Joshua Howland, Jonathan Malmaud, Jacob Austin, Rishabh Singh, Michele Catasta
Abstract要約: 我々は,任意の言語におけるベンチマークの実行ベースの評価を行うためのBabelCodeフレームワークを提案する。我々は Translating Python Programming Puzzles (TP3) と呼ばれる新しいコード翻訳データセットを提案する。トレーニングデータセットにおける14の言語分布のバランスをとることで,低リソース言語における大規模言語モデルの性能が向上するかどうかを検討する。
参考スコア（独自算出の注目度）: 28.96076723773365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current benchmarks for evaluating neural code models focus on only a small subset of programming languages, excluding many popular languages such as Go or Rust. To ameliorate this issue, we present the BabelCode framework for execution-based evaluation of any benchmark in any language. BabelCode enables new investigations into the qualitative performance of models' memory, runtime, and individual test case results. Additionally, we present a new code translation dataset called Translating Python Programming Puzzles (TP3) from the Python Programming Puzzles (Schuster et al. 2021) benchmark that involves translating expert-level python functions to any language. With both BabelCode and the TP3 benchmark, we investigate if balancing the distributions of 14 languages in a training dataset improves a large language model's performance on low-resource languages. Training a model on a balanced corpus results in, on average, 12.34% higher $pass@k$ across all tasks and languages compared to the baseline. We find that this strategy achieves 66.48% better $pass@k$ on low-resource languages at the cost of only a 12.94% decrease to high-resource languages. In our three translation tasks, this strategy yields, on average, 30.77% better low-resource $pass@k$ while having 19.58% worse high-resource $pass@k$.
Abstract（参考訳）: ニューラルコードモデルを評価するための現在のベンチマークは、goやrustのような多くの人気言語を除いて、プログラミング言語の小さなサブセットのみに焦点を当てている。この問題を改善するために,任意の言語におけるベンチマークの実行ベース評価のためのBabelCodeフレームワークを提案する。 BabelCodeは、モデルのメモリ、ランタイム、そして個々のテストケース結果の質的なパフォーマンスに関する新たな調査を可能にする。さらに、pythonプログラミングパズル(schuster et al. 2021)ベンチマークから、エキスパートレベルのpython関数を任意の言語に翻訳する、translating python programming puzzles(tp3)と呼ばれる新しいコード翻訳データセットも提示する。 BabelCodeとTP3ベンチマークの両方を用いて、トレーニングデータセットにおける14言語の分散のバランスが、低リソース言語における大規模言語モデルの性能を改善するかどうかを検討する。バランスの取れたコーパスでモデルをトレーニングすると、平均して12.34%の$pass@k$がベースラインと比較してすべてのタスクや言語に対して高くなる。この戦略は、低リソース言語では66.48%の$pass@k$を、高リソース言語ではわずか12.94%のコストで達成している。私たちの3つの翻訳タスクでは、この戦略は平均30.77%の低リソース$pass@k$、19.58%の高リソース$pass@k$をもたらす。

関連論文リスト

A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。 85.7%は単一のプログラミング言語に重点を置いている。 94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。 80%以上は平均10件未満のテストケースを含む。
論文参考訳（メタデータ） (2025-09-30T11:30:08Z)
Evaluation of the Code Generation Capabilities of ChatGPT 4: A Comparative Analysis in 19 Programming Languages [0.0]
この論文は、19のプログラミング言語にわたるコード生成におけるChatGPT 4の機能について考察する。 ChatGPT 4は全てのタスクの39.67%をうまく解決したが、複雑性が増大すると成功率は大幅に低下した。このモデルは、全てのプログラミング言語で平均以上の実行効率を示した。
論文参考訳（メタデータ） (2025-01-04T17:17:01Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts [51.49688654641581]
本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。実験の結果、Python Self-Consistencyを著しく上回ることがわかった。特にMultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
論文参考訳（メタデータ） (2024-02-16T13:48:06Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Detecting Languages Unintelligible to Multilingual Models through Local Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文参考訳（メタデータ） (2022-11-09T16:45:16Z)
No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文参考訳（メタデータ） (2022-07-11T07:33:36Z)
OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文参考訳（メタデータ） (2022-05-17T19:52:42Z)
Leveraging Automated Unit Tests for Unsupervised Code Translation [34.84910520660154]
本稿では,無効翻訳をフィルタリングする自動単体テストシステムを提案する。このフィルタデータセットを用いて教師なしモデルの微調整を行うことで,翻訳のノイズを著しく低減できることがわかった。特に、Java $to$ Python と Python $to$ C++ は、それぞれ 16% と 24% よりも優れています。
論文参考訳（メタデータ） (2021-10-13T15:08:43Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)
Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文参考訳（メタデータ） (2020-04-14T13:14:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。