Fugu-MT 論文翻訳(概要): Evaluating Programming Language Confusion

論文の概要: Evaluating Programming Language Confusion

arxiv url: http://arxiv.org/abs/2503.13620v1
Date: Mon, 17 Mar 2025 18:14:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:11.85676
Title: Evaluating Programming Language Confusion
Title（参考訳）: プログラミング言語の融合を評価する
Authors: Micheline Bénédicte Moumoula, Abdoul Kader Kabore, Jacques Klein, Tegawendé F. Bissyande,
Abstract要約: コードのための大規模言語モデル(Code LLM)は、ソフトウェア工学において大きな注目を集めている。これらのモデルは、プログラミング概念の理解、アルゴリズムの実装、さらには異なるプログラミング言語のブリッジ化において、顕著な能力を示してきた。これらの進歩にもかかわらず、コードLLMは、意図しない言語でコードを生成するために、しばしばプログラミング言語の混乱に苦しむ。
参考スコア（独自算出の注目度）: 6.462594894731934
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models for code (Code LLMs) have gained significant traction in software engineering, achieving state-of-the-art performance on various programming tasks including code completion, generation, repair, and translation. These models have demonstrated remarkable capabilities in understanding programming concepts, implementing algorithms, and even bridging different programming languages, fundamentally transforming how developers interact with coding environments. Despite these advances, Code LLMs often struggle with programming language confusion--producing code in unintended languages despite explicit instructions or obvious context. We systematically evaluate this phenomenon across diverse programming contexts. Our study assesses seven popular general and Code LLMs across multiple natural and programming languages, analyzing their behavior using four datasets (HumanEval, HumanEval-xl, MBPP, TP3) for code generation and one dataset (CodeNet) for code translation. The study results reveal that language confusion occurs across all evaluated models, with StarCoder and CodeLlama exhibiting the highest confusion rates. Even high-performing models fail to maintain language consistency throughout generated solutions, particularly when handling complex algorithmic problems. We identify key factors contributing to this confusion, including syntactic similarities between programming languages and inconsistent prompt formatting. Interestingly, we find evidence suggesting that LLMs consistently exhibit strategic language migration behaviors, prioritizing languages where they can produce more syntactically correct code even when explicitly instructed otherwise. This phenomenon is particularly pronounced in code generation tasks, where models show strong migration patterns toward Python and between syntactically similar language pairs.
Abstract（参考訳）: コードのための大規模言語モデル(Code LLM)は、コード補完、生成、修復、翻訳を含む様々なプログラミングタスクにおける最先端のパフォーマンスを達成するため、ソフトウェア工学において大きな注目を集めている。これらのモデルは、プログラミングの概念を理解し、アルゴリズムを実装し、異なるプログラミング言語をブリッジし、開発者がコーディング環境とどのように相互作用するかを根本的に変えた。これらの進歩にもかかわらず、コードLLMは、明示的な命令や明確な文脈にもかかわらず、意図しない言語でコードを生成するプログラミング言語の混乱に苦しむ。我々は、この現象を多様なプログラミングコンテキストで体系的に評価する。本研究は,複数の自然言語およびプログラミング言語にまたがる7つの一般的なLLMを解析し,コード生成のための4つのデータセット(HumanEval, HumanEval-xl, MBPP, TP3)とコード翻訳のための1つのデータセット(CodeNet)を用いて解析する。その結果,StarCoderとCodeLlamaの混同率が最も高いことが判明した。高パフォーマンスモデルでさえ、特に複雑なアルゴリズム問題を扱う場合、生成されたソリューション全体の言語一貫性を維持することができません。この混乱に寄与する重要な要因として,プログラミング言語と非一貫性なプロンプトフォーマッティングの構文的類似性を挙げる。興味深いことに、LLMは戦略的言語移行の挙動を一貫して示しており、明示的に指示されたコードであっても、より構文的に正しいコードを生成することができる言語を優先していることを示す証拠が見つかった。この現象は特にコード生成タスクにおいて顕著であり、モデルではPythonと構文的に類似した言語ペア間の強力なマイグレーションパターンが示される。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Isolating Language-Coding from Problem-Solving: Benchmarking LLMs with PseudoEval [7.33924106492889]
既存のコード生成ベンチマークは、大規模言語モデルのエンドツーエンドのパフォーマンスを研究するために設計されている。我々は擬似コードで書かれたソリューションを入力として提供する多言語コード生成ベンチマークであるPseudoEvalを構築した。本研究は,プログラミング言語間で問題解決能力が伝達される可能性を示し,言語符号化には言語固有の取り組みが必要であることを示唆する。
論文参考訳（メタデータ） (2025-02-26T14:08:17Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文参考訳（メタデータ） (2024-09-06T08:31:18Z)
Benchmarking LLM Code Generation for Audio Programming with Visual Dataflow Languages [1.559169421643164]
ノードベースのプログラミング言語は、メディアアートコーディングドメインでますます人気がある。 LLMベースのコード生成を使用して、創造的なアウトプットの障壁をさらに低くするというのは、エキサイティングな機会です。ビジュアルノードベースのプログラミング言語のためのコード生成の最良の戦略は、まだオープンな問題である。
論文参考訳（メタデータ） (2024-09-01T22:11:23Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models [28.295926947968574]
大規模言語モデル(LLM)は、コード生成の分野にパラダイムシフトをもたらした。我々は、コードLLMによって生成されたコードと、人間の開発者が書いたコードとのコーディングスタイルの違いを経験的に分析する。
論文参考訳（メタデータ） (2024-06-29T14:56:11Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文参考訳（メタデータ） (2024-03-06T17:52:08Z)
Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。 1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文参考訳（メタデータ） (2023-10-25T17:34:52Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。 xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文参考訳（メタデータ） (2023-03-06T10:08:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。