論文の概要: AutoICE: Automatically Synthesizing Verifiable C Code via LLM-driven Evolution
- arxiv url: http://arxiv.org/abs/2512.07501v1
- Date: Mon, 08 Dec 2025 12:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.886139
- Title: AutoICE: Automatically Synthesizing Verifiable C Code via LLM-driven Evolution
- Title(参考訳): AutoICE: LLM駆動進化による検証可能なCコードの自動合成
- Authors: Weilin Luo, Xueyi Liang, Haotian Deng, Yanan Liu, Hai Wan,
- Abstract要約: AutoICEは、検証可能なCコードの合成のための進化的検索である。
90.36$%のコードを検証し、最先端のSOTA(State-of-the-art)アプローチを上回った。
- 参考スコア(独自算出の注目度): 20.91584024250844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically synthesizing verifiable code from natural language requirements ensures software correctness and reliability while significantly lowering the barrier to adopting the techniques of formal methods. With the rise of large language models (LLMs), long-standing efforts at autoformalization have gained new momentum. However, existing approaches suffer from severe syntactic and semantic errors due to the scarcity of domain-specific pre-training corpora and often fail to formalize implicit knowledge effectively. In this paper, we propose AutoICE, an LLM-driven evolutionary search for synthesizing verifiable C code. It introduces the diverse individual initialization and the collaborative crossover to enable diverse iterative updates, thereby mitigating error propagation inherent in single-agent iterations. Besides, it employs the self-reflective mutation to facilitate the discovery of implicit knowledge. Evaluation results demonstrate the effectiveness of AutoICE: it successfully verifies $90.36$\% of code, outperforming the state-of-the-art (SOTA) approach. Besides, on a developer-friendly dataset variant, AutoICE achieves a $88.33$\% verification success rate, significantly surpassing the $65$\% success rate of the SOTA approach.
- Abstract(参考訳): 検証可能なコードを自然言語要求から自動で合成することで、ソフトウェアの正しさと信頼性が保証されると同時に、形式的な手法を採用する際の障壁を著しく低くする。
大規模言語モデル (LLMs) の台頭に伴い, オートフォーマル化への長年の取り組みが新たな勢いを増している。
しかし、既存のアプローチでは、ドメイン固有の事前学習コーパスが不足しているため、厳密な構文的および意味的誤りに悩まされ、暗黙の知識を効果的に形式化できないことが多い。
本稿では,LLMによる検証可能なCコードの合成のための進化的探索であるAutoICEを提案する。
多様な個別初期化とコラボレーティブ・クロスオーバーを導入し、多様な反復的な更新を可能にすることにより、単一エージェントのイテレーションに固有のエラーの伝播を緩和する。
さらに、暗黙の知識の発見を促進するために自己反射突然変異を用いる。
評価結果はAutoICEの有効性を示し、90.36$\%のコードの検証に成功し、最先端(SOTA)アプローチを上回った。
さらに、開発者フレンドリーなデータセットの亜種であるAutoICEは、88.33$\%の検証成功率を達成し、SOTAアプローチの65$\%の成功率を大幅に上回っている。
関連論文リスト
- Autonomous Chain-of-Thought Distillation for Graph-Based Fraud Detection [73.9189065770752]
テキスト分散グラフ(TAG)上のグラフベースの不正検出には、リッチテキストセマンティクスとリレーショナル依存関係を共同でモデル化する必要がある。
我々は,自律型グラフ認識チェーン(CoT)推論とスケーラブルなLLM-GNN協調学習を通じて,TAGに基づく不正検出を促進する統一フレームワークであるFraudCoTを提案する。
論文 参考訳(メタデータ) (2026-01-30T13:12:12Z) - MulVul: Retrieval-augmented Multi-Agent Code Vulnerability Detection via Cross-Model Prompt Evolution [28.062506040151153]
大きな言語モデル(LLM)は、2つの重要な制限のため、現実世界の脆弱性検出を自動化するのに苦労している。
脆弱性パターンの不均一性は単一の統一モデルの有効性を損なう。
textbfMulVulは,高精度かつ広範囲な脆弱性検出のための検索拡張型マルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2026-01-26T12:43:10Z) - LLMs in Code Vulnerability Analysis: A Proof of Concept [0.3441021278275805]
従来のソフトウェアセキュリティ分析手法は、現代人の規模や複雑さに合わせたペースを維持するのに苦労している。
本稿では,重要なソフトウェアセキュリティタスクを自動化するために,コード固有および汎用大規模言語モデルの導入について検討する。
論文 参考訳(メタデータ) (2026-01-13T16:16:11Z) - Automatic Syntax Error Repair for Discrete Controller Synthesis using Large Language Model [8.741815980649667]
本稿では,Large Language Models (LLMs) を利用してDCSモデルの構文誤りを修復する自動手法を提案する。
LLMには形式文法規則やイラストレーション例を含むDCS固有のドメイン知識が備わっており、正確な修正を導く。
人間の開発者に比べて3.46倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-12-08T07:57:15Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - Semantic Voting: A Self-Evaluation-Free Approach for Efficient LLM Self-Improvement on Unverifiable Open-ended Tasks [38.058215007885096]
大規模言語モデル(LLM)の自己評価は高い計算オーバーヘッドをもたらし、本質的なバイアスによる過信問題を引き起こす。
本稿では、軽量で効果的な自己改善を目的とした、検証不能なタスクに対する新しい自己評価自由アプローチを提案する。
論文 参考訳(メタデータ) (2025-09-27T02:44:05Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach [15.658579092368981]
大規模言語モデル(LLM)は、ユーザ入力を洗練させ、応答精度を向上させるために、グラフィカルユーザインタフェース(GUI)における自動プロンプト工学に依存している。
本稿では, セマンティック安定性を維持しつつ, 共通的なプロンプト最適化機構をシミュレートするアダプティブ・グレディ・バイナリ・サーチ(AGBS)手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:41:06Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。