論文の概要: Towards Exception Safety Code Generation with Intermediate Representation Agents Framework
- arxiv url: http://arxiv.org/abs/2410.06949v3
- Date: Mon, 07 Jul 2025 20:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:36.552617
- Title: Towards Exception Safety Code Generation with Intermediate Representation Agents Framework
- Title(参考訳): 中間表現エージェントフレームワークを用いた例外安全コード生成に向けて
- Authors: Xuanming Zhang, Yuxuan Chen, Yuan Yuan, Minlie Huang,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば生成されたコードの堅牢な例外処理に苦しむ。
中間表現(IR)アプローチにより,LLM生成コードの例外安全性を実現する新しいマルチエージェントフレームワークであるSeekerを提案する。
Seekerは例外処理をScanner, Detector, Predator, Ranker, Handlerの5つの特殊エージェントに分解する。
- 参考スコア(独自算出の注目度): 54.03528377384397
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) often struggle with robust exception handling in generated code, leading to fragile programs that are prone to runtime errors. We propose Seeker, a novel multi-agent framework that enforces exception safety in LLM generated code through an Intermediate Representation (IR) approach. Seeker decomposes exception handling into five specialized agents: Scanner, Detector, Predator, Ranker, and Handler that collaboratively analyze code, detect fragile segments, retrieve best practice exception strategies, and inject robust handling code. We also introduce Common Exception Enumeration (CEE), a comprehensive knowledge base derived from official documentation, technical practices, and real world code, to standardize exception handling strategies. Seeker also incorporates a Deep Retrieval-Augmented Generation (Deep RAG) algorithm to efficiently navigate the exception inheritance hierarchy, cutting down search overhead by 93% while improving accuracy in identifying relevant exceptions. We evaluate Seeker on 15 open source Java projects and multiple benchmarks. Seeker outperforms state of the art baselines, improving exception handling precision by up to 37% and overall code robustness by 38% as measured by expert code review. It significantly closes the gap between LLM and human developers in exception management, achieving a 28% success rate on real world issue fixes (SWE bench) versus 19% by prior methods. Our framework preserves functional correctness of code while proactively handling errors, demonstrating a practical, generalizable solution for safer code generation. In this paper, we discuss the novelty of using intermediate representation and multi-agent collaboration for exception handling, and outline how Seeker can be extended to other programming languages and complex software engineering tasks, aligning LLM-generated code with industrial standard.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば生成されたコードの堅牢な例外処理に苦しむ。
中間表現(IR)アプローチにより,LLM生成コードの例外安全性を実現する新しいマルチエージェントフレームワークであるSeekerを提案する。
Seekerは例外処理を,Scanner, Detector, Predator, Ranker, Handlerの5つの特殊なエージェントに分解する。
また、例外処理戦略を標準化するために、公式文書、技術プラクティス、実世界のコードから派生した包括的な知識基盤であるCommon Exception Enumeration (CEE)を導入します。
Seekerはまた、Deep Retrieval-Augmented Generation (Deep RAG)アルゴリズムを導入し、例外の継承階層を効率的にナビゲートし、検索オーバーヘッドを93%削減し、関連する例外を特定する精度を向上させる。
我々は、Seekerを15のオープンソースプロジェクトと複数のベンチマークで評価する。
Seekerは最先端のベースラインを上回り、例外処理の精度を最大37%向上し、コード全体の堅牢性はエキスパートコードレビューで測定された38%向上した。
例外管理におけるLLMと人間開発者のギャップを著しく埋め、実際の問題修正(SWEベンチ)で28%の成功率を達成する。
我々のフレームワークは、エラーを積極的に処理しながらコードの機能的正当性を保ち、より安全なコード生成のための実用的な一般化可能なソリューションを実証する。
本稿では、例外処理に中間表現とマルチエージェント協調を用いるという斬新さを論じ、Seekerを他のプログラミング言語や複雑なソフトウェア工学タスクに拡張し、LLM生成したコードを産業標準に整合させる方法について概説する。
関連論文リスト
- Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework [58.36391985790157]
現実世界のソフトウェア開発では、不適切な例外処理がコードの堅牢性と信頼性に重大な影響を与えます。
コードにおける例外処理を改善するために,大規模言語モデル (LLM) の利用について検討する。
例外処理のエキスパート開発者戦略に触発されたマルチエージェントフレームワークであるSeekerを提案する。
論文 参考訳(メタデータ) (2024-12-16T12:35:29Z) - LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z) - REDO: Execution-Free Runtime Error Detection for COding Agents [3.9903610503301072]
Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。
我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-10-10T18:06:29Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。
目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。
LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文 参考訳(メタデータ) (2024-05-24T14:59:19Z) - Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。
当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。
本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文 参考訳(メタデータ) (2024-05-22T19:02:50Z) - A Comprehensive Study of the Capabilities of Large Language Models for Vulnerability Detection [9.422811525274675]
大規模言語モデル(LLM)は、コード生成やその他のソフトウェアエンジニアリングタスクに大きな可能性を実証しています。
脆弱性検出は、ソフトウェアシステムのセキュリティ、完全性、信頼性を維持する上で非常に重要である。
最近の研究は、ジェネリックプロンプト技術を用いた脆弱性検出にLLMを適用しているが、このタスクの能力とそれらが犯すエラーの種類は未だ不明である。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - From Misuse to Mastery: Enhancing Code Generation with Knowledge-Driven
AI Chaining [16.749379740049925]
大きな言語モデル(LLM)は、コーディング効率をある程度改善することで、自動コード生成の有望な結果を示している。
しかし、LLMが優れたプログラミングプラクティスを欠いているため、高品質で信頼性の高いコードを生成することは、依然として恐ろしい作業である。
我々は、コード生成を反復的なチェック-リライトステップでAIチェーンに分解する、知識駆動型Prompt Chainingベースのコード生成手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T12:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。