論文の概要: Compiler-Guided Inference-Time Adaptation: Improving GPT-5 Programming Performance in Idris
- arxiv url: http://arxiv.org/abs/2602.11481v1
- Date: Thu, 12 Feb 2026 01:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.597568
- Title: Compiler-Guided Inference-Time Adaptation: Improving GPT-5 Programming Performance in Idris
- Title(参考訳): コンパイラによる推論時間適応:IdrisにおけるGPT-5プログラミング性能の改善
- Authors: Minda Li, Bhaskar Krishnamachari,
- Abstract要約: GPT-5はOpenAIの最先端の言語モデルである。
本研究は,GPT-5が不慣れな関数型プログラミング言語の習熟度を効果的に獲得できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 4.303580795892996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPT-5, a state of the art large language model from OpenAI, demonstrates strong performance in widely used programming languages such as Python, C++, and Java; however, its ability to operate in low resource or less commonly used languages remains underexplored. This work investigates whether GPT-5 can effectively acquire proficiency in an unfamiliar functional programming language, Idris, through iterative, feedback driven prompting. We first establish a baseline showing that with zero shot prompting the model solves only 22 out of 56 Idris exercises using the platform Exercism, substantially underperforming relative to higher resource languages (45 out of 50 in Python and 35 out of 47 in Erlang). We then evaluate several refinement strategies, including iterative prompting based on platform feedback, augmenting prompts with documentation and error classification guides, and iterative prompting using local compilation errors and failed test cases. Among these approaches, incorporating local compilation errors yields the most substantial improvements. Using this structured, error guided refinement loop, GPT-5 performance increased to an impressive 54 solved problems out of 56. These results suggest that while large language models may initially struggle in low resource settings, structured compiler level feedback can play a critical role in unlocking their capabilities.
- Abstract(参考訳): OpenAIの最先端の大規模言語モデルであるGPT-5は、Python、C++、Javaなどの広く使われているプログラミング言語で強力なパフォーマンスを示しているが、低リソースまたはあまり一般的に使われていない言語で運用できる能力はまだ未定である。
本研究は,GPT-5が不慣れな関数型プログラミング言語Idrisにおいて,反復的,フィードバック駆動的プロンプトによって効率よく習得できるかどうかを考察する。
まず、モデルをゼロにすることで、より高いリソース言語(Pythonでは50点中45点、Erlangでは47点中35点)と比較してパフォーマンスが大幅に低下する、プラットフォームExercismを使用した56のIdrisエクササイズのうち、22点しか解決できない、というベースラインを確立しました。
次に、プラットフォームフィードバックに基づいた反復的プロンプト、ドキュメントとエラー分類ガイドによる拡張的プロンプト、ローカルコンパイルエラーと失敗したテストケースを使用した反復的プロンプトなど、いくつかの改善戦略を評価した。
これらのアプローチの中で、ローカルコンパイルエラーを組み込むことで、最も重要な改善がもたらされる。
その結果, GPT-5は56点中54点に向上した。
これらの結果は、大規模な言語モデルが最初はリソース設定の低さに苦しむかもしれないが、構造化されたコンパイラレベルのフィードバックは、その機能をアンロックする上で重要な役割を担っていることを示唆している。
関連論文リスト
- "When Data is Scarce, Prompt Smarter"... Approaches to Grammatical Error Correction in Low-Resource Settings [2.926692606428691]
文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語処理において重要な課題であり、テキスト中の文法的誤りを自動的に検出し、修正することを目的としている。
ほとんどのIndic言語にとって、GECは限られた資源、言語的多様性、複雑な形態学のために難しい課題である。
我々は,GPT-4.1やGemini-2.5,LLaMA-4といった最先端の大規模言語モデル(LLM)を用いたプロンプトベースのアプローチと,低リソース環境に適応するための数ショット戦略を併用することを検討した。
論文 参考訳(メタデータ) (2025-11-25T09:40:57Z) - Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.37878669586302]
大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。
ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。
MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
論文 参考訳(メタデータ) (2025-10-10T16:49:12Z) - Evaluation of the Code Generation Capabilities of ChatGPT 4: A Comparative Analysis in 19 Programming Languages [0.0]
この論文は、19のプログラミング言語にわたるコード生成におけるChatGPT 4の機能について考察する。
ChatGPT 4は全てのタスクの39.67%をうまく解決したが、複雑性が増大すると成功率は大幅に低下した。
このモデルは、全てのプログラミング言語で平均以上の実行効率を示した。
論文 参考訳(メタデータ) (2025-01-04T17:17:01Z) - Enhancing IR-based Fault Localization using Large Language Models [5.032687557488094]
本稿では、プログラミングエンティティ、スタックトレース、自然言語テキストに基づいてバグレポートを分類することで、障害局所化(IRFL)を強化する。
クエリの不正確性に対処するため,LLmiRQ+と呼ばれるユーザと対話型クエリ再構成手法を導入する。
6,340件のバグ報告を含む46のプロジェクトの評価では、MRRは0.6770件、MAPは0.5118件であり、7つの最先端IRFL技術を上回っている。
論文 参考訳(メタデータ) (2024-12-04T22:47:51Z) - Assessing the Latent Automated Program Repair Capabilities of Large Language Models using Round-Trip Translation [44.3761164214368]
RTT(Round-Trip Translation): あるプログラミング言語から別のプログラミング言語や自然言語にコードを翻訳する。
JavaにおけるRTT生成パッチの詳細な量的および定性的な分析を行う。
RTTはHumanEval-JavaベンチマークでGPT-4を用いた164のバグのうち100件に対して可塑性パッチを生成し,97件を手作業で評価した。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation [23.31928097405939]
言語モデルに融合した足場プログラムを用いて自己改善を行う。
言語モデルにより、様々な自己改善戦略が提案されている。
これは、近代的な言語モデルであるGPT-4が、自分自身を改善のために呼び出すことができるコードを書くことができることを実証している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。
自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。
我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文 参考訳(メタデータ) (2023-06-16T15:13:17Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。