論文の概要: LLMs Love Python: A Study of LLMs' Bias for Programming Languages and Libraries
- arxiv url: http://arxiv.org/abs/2503.17181v1
- Date: Fri, 21 Mar 2025 14:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:44.349167
- Title: LLMs Love Python: A Study of LLMs' Bias for Programming Languages and Libraries
- Title(参考訳): LLMs Love Python: プログラミング言語とライブラリのためのLLMのバイアスに関する研究
- Authors: Lukas Twist, Jie M. Zhang, Mark Harman, Don Syme, Joost Noppen, Detlef Nauck,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成においてますます大きな役割を果たす。
この研究は、コードを生成する際に使われるプログラミング言語やライブラリに対するLLMの嗜好について、初めて詳細に調査する。
その結果,LLMは言語に依存しない問題を解く上で,Pythonを強く好んでいることが明らかとなった。
- 参考スコア(独自算出の注目度): 15.140178992235123
- License:
- Abstract: Programming language and library choices are crucial to software reliability and security. Poor or inconsistent choices can lead to increased technical debt, security vulnerabilities, and even catastrophic failures in safety-critical systems. As Large Language Models (LLMs) play an increasing role in code generation, it is essential to understand how they make these decisions. However, little is known about their preferences when selecting programming languages and libraries for different coding tasks. To fill this gap, this study provides the first in-depth investigation into LLM preferences for programming languages and libraries used when generating code. We assess the preferences of eight diverse LLMs by prompting them to complete various coding tasks, including widely-studied benchmarks and the more practical task of generating the initial structural code for new projects (a crucial step that often determines a project's language or library choices). Our findings reveal that LLMs heavily favour Python when solving language-agnostic problems, using it in 90%-97% of cases for benchmark tasks. Even when generating initial project code where Python is not a suitable language, it remains the most-used language in 58% of instances. Moreover, LLMs contradict their own language recommendations in 83% of project initialisation tasks, raising concerns about their reliability in guiding language selection. Similar biases toward well-established libraries further create serious discoverability challenges for newer open-source projects. These results highlight the need to improve LLMs' adaptability to diverse programming contexts and to develop mechanisms for mitigating programming language and library bias.
- Abstract(参考訳): プログラム言語とライブラリの選択は、ソフトウェアの信頼性とセキュリティに不可欠です。
貧弱な選択や一貫性のない選択は、技術的負債の増加、セキュリティ上の脆弱性、さらには安全クリティカルなシステムにおける破滅的な失敗につながる可能性がある。
大規模言語モデル(LLM)はコード生成において役割を担っているため、これらの決定をどう行うかを理解することが不可欠である。
しかし、異なるコーディングタスクのためにプログラミング言語やライブラリを選択する際の好みについてはほとんど分かっていない。
このギャップを埋めるために、コードを生成する際に使われるプログラミング言語やライブラリに対するLLMの選好について、この研究は初めて詳細に調査する。
我々は、広く研究されているベンチマークや、新しいプロジェクトのための初期構造コードを生成するためのより実践的なタスク(しばしばプロジェクトの言語やライブラリの選択を決定する重要なステップ)を含む、様々なコーディングタスクを完了するよう促すことで、8つの多様なLCMの好みを評価する。
その結果,LLMは言語に依存しない問題を解く上でPythonを強く好んでおり,ベンチマークタスクの90%~97%のケースで使用していることがわかった。
Pythonが適切な言語ではない初期プロジェクトコードを生成する場合でも、58%のインスタンスで最も使われている言語である。
さらに、LLMはプロジェクトの初期化タスクの83%で独自の言語レコメンデーションを矛盾させ、言語選択を導く際の信頼性に関する懸念を提起している。
確立されたライブラリに対する同様のバイアスは、新たなオープンソースプロジェクトにとって深刻な発見可能性の課題を生み出します。
これらの結果は,LLMの多様なプログラムコンテキストへの適応性の向上と,プログラム言語とライブラリバイアスを緩和するメカニズムの開発の必要性を強調している。
関連論文リスト
- Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Codellm-Devkit: A Framework for Contextualizing Code LLMs with Program Analysis Insights [9.414198519543564]
codellm-devkit (以下, CLDK') は,プログラム解析のプロセスを大幅に単純化したオープンソースライブラリである。
CLDKは開発者に対して直感的でユーザフレンドリなインターフェースを提供しています。
論文 参考訳(メタデータ) (2024-10-16T20:05:59Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Learning Transfers over Several Programming Languages [5.350495525141013]
言語間転送は、ソース言語からのデータを使用して、ターゲット言語でのモデルパフォーマンスを改善する。
本稿では,変圧器を用いた大規模言語モデルと11から41のプログラミング言語を用いた4つのタスクに関する広範な実験を報告する。
学習は、複数のプログラミング言語間でうまく伝達される。
論文 参考訳(メタデータ) (2023-10-25T19:04:33Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。