論文の概要: How Does LLM Reasoning Work for Code? A Survey and a Call to Action
- arxiv url: http://arxiv.org/abs/2506.13932v1
- Date: Mon, 16 Jun 2025 19:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.217476
- Title: How Does LLM Reasoning Work for Code? A Survey and a Call to Action
- Title(参考訳): LLMはコードに対してどのように振る舞うのか?
- Authors: Ira Ceka, Saurabh Pujar, Irene Manotas, Gail Kaiser, Baishakhi Ray, Shyam Ramji,
- Abstract要約: 大規模言語モデル (LLM) はコード領域に拡張され、コード生成、翻訳、要約、修復といった複雑な作業が容易になった。
特に、GitHubのイシュー解決のようなソフトウェアエンジニアリング(SWE)タスクについて研究されている。
本研究では,そのようなタスクを遂行する能力が不足しているコード推論手法について検討し,その性能向上に使用されるパラダイムについて検討する。
- 参考スコア(独自算出の注目度): 15.390359698398283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of large language models (LLMs) has led to dramatic improvements across a wide range of natural language tasks. These advancements have extended into the domain of code, facilitating complex tasks such as code generation, translation, summarization, and repair. However, their utility for real-world deployment in-the-wild has only recently been studied, particularly on software engineering (SWE) tasks such as GitHub issue resolution. In this study, we examine the code reasoning techniques that underlie the ability to perform such tasks, and examine the paradigms used to drive their performance. Our contributions in this paper are: (1) the first dedicated survey on code reasoning for code tasks, highlighting overarching strategies, hybrid and agentic approaches; (2) a taxonomy of various techniques used to drive code reasoning; (3) a comprehensive overview of performance on common benchmarks and a showcase of new, under-explored benchmarks with high potential in SWE; (4) an exploration on how core properties of code can be used to explain different reasoning techniques; and (5) gaps and potentially under-explored areas for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、幅広い自然言語タスクに劇的な改善をもたらした。
これらの進歩はコード領域にまで拡張され、コード生成、翻訳、要約、修復といった複雑なタスクが促進された。
しかしながら、現実のデプロイのためのユーティリティは、特にGitHubのイシュー解決のようなソフトウェアエンジニアリング(SWE)タスクについて、最近のみ研究されている。
本研究では,そのようなタスクを遂行する能力が不足しているコード推論手法について検討し,その性能向上に使用されるパラダイムについて検討する。
本研究の貢献は,(1)コードタスクに対するコード推論に関する最初の専用の調査,(2)コード推論を駆動する様々な手法の分類,(3)SWEにおいて高い可能性を秘めた新しいアンダーサーベイトベンチマークの総合的な概要,(4)コードのコア特性を,さまざまな推論手法を説明するためにどのように利用できるか,(5)将来の研究におけるギャップと潜在的なアンダーサーベイの分野について,である。
関連論文リスト
- Augmenting the Generality and Performance of Large Language Models for Software Engineering [0.0]
大規模言語モデル(LLM)は、コード生成と分析に特に重点を置いて、ソフトウェア工学(SE)に革命をもたらしている。
本研究の目的は、異なる特徴を持つLLMが様々な非コードタスクでどのように機能するかを理解することによって、SEのためのLLMの汎用性と性能を高めることである。
論文 参考訳(メタデータ) (2025-06-13T08:00:38Z) - Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。
コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。
我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2025-02-26T18:55:42Z) - Language Models for Code Optimization: Survey, Challenges and Future Directions [7.928856221466083]
ディープニューラルネットワーク(DNN)上に構築された言語モデル(LM)は、先日、ソフトウェアエンジニアリングタスクにおいて、画期的な効果を実証した。
本研究は、この急速に発展する分野において、研究者と実践者の両方に実行可能な洞察と参照を提供することを目的としている。
論文 参考訳(メタデータ) (2025-01-02T14:20:36Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。
本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-06-01T17:48:15Z) - Ocassionally Secure: A Comparative Analysis of Code Generation
Assistants [8.573156248244695]
本稿では,LLMを効果的かつ安全に展開できる状況と状況を特定し,理解することに焦点を当てる。
Google の ChatGPT と Bard と Gemini を用いた 4 つの高度な LLM--GPT-3.5 と GPT-4 の比較分析を行い,各モデルのコード生成能力を評価した。
61のコードアウトプットを収集し、機能、セキュリティ、パフォーマンス、複雑さ、信頼性など、さまざまな側面で分析しました。
論文 参考訳(メタデータ) (2024-02-01T15:49:47Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。