論文の概要: From I/O to Code with Discovery Agent
- arxiv url: http://arxiv.org/abs/2605.15334v1
- Date: Thu, 14 May 2026 18:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.271847
- Title: From I/O to Code with Discovery Agent
- Title(参考訳): ディスカバリエージェントによるI/Oからコードへ
- Authors: Yihong Dong, Jiaru Qian, Haoran Zhang, Peixu Wang, Binhua Li, Zhi Jin, Yongbin Li, Ge Li, Xiaokang Yang, Xue Jiang,
- Abstract要約: IO2Codeの発見エージェントであるDIO-Agentを提案する。
本手法は,プログラム空間上の進化的探索としてIO2Codeをフレーム化する。
大規模な実験により、DIO-Agentは従来のプログラムバイサンプル法とSOTA進化エージェントベースラインの両方を一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 103.88427301265669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic synthesis of a program from any form of specification is regarded as a holy grail of computer science. Fueled by LLMs, NL2Code has achieved tremendous success, yet the fundamentally more challenging task of synthesizing programs from input-output behavior, which we refer to as IO2Code, remains largely unsolved. Whereas NL2Code can exploit the semantic alignment between natural language and code acquired during pretraining, IO2Code requires recovering underlying principles from concrete computational behavior, navigating a vast and underspecified hypothesis space. To address this, we propose DIO-Agent, a discovery agent for IO2Code. Our method frames IO2Code as an evolutionary search over discrete program space, in which an LLM serves as the mutation operator and concrete error signals from execution guide each mutation. To prevent the search from wandering into structurally complex yet incorrect dead ends, we introduce the Transformation Priority Premise as a mutation prior that biases the LLM toward the simplest hypothesis consistent with current evidence, progressively escalating from constants to conditionals to iteration only when simpler constructs are insufficient. To facilitate systematic study, we further construct an IO2CodeBench spanning multiple difficulty levels. Extensive experiments show that DIO-Agent consistently outperforms both traditional program-by-example method and SOTA evolution-agent baselines across all difficulty levels and various LLMs, while substantially surpassing test-time scaling strategies with equivalent sampling budgets.
- Abstract(参考訳): プログラムの任意の形態の仕様からの自動合成は、コンピュータ科学の聖杯と見なされる。
LLMによって実現されたNL2Codeは、非常に成功したが、IO2Codeと呼ばれる入出力動作からプログラムを合成する根本的な課題は、未解決のままである。
NL2Codeは、事前トレーニング中に取得した自然言語とコード間のセマンティックアライメントを利用することができるが、IO2Codeは、具体的な計算行動から基礎となる原則を回復し、広大な未特定仮説空間をナビゲートする必要がある。
そこで我々は,IO2Codeの発見エージェントであるDIO-Agentを提案する。
提案手法では,LOMが突然変異演算子として機能し,各突然変異の具体的なエラー信号を導出する,離散的なプログラム空間上の進化的探索としてIO2Codeを用いる。
構造的に複雑で不正確な死点への探索を防止するため,従来の証拠と一致した最も単純な仮説に対してLSMを偏り、より単純な構成が不十分な場合にのみ定数から条件から反復への段階的なエスカレーションを行うという変異として変換優先性(transform Priority Premise)を導入する。
系統的な研究を容易にするため,複数の難易度にまたがるIO2CodeBenchを構築した。
大規模な実験により、DIO-Agentは従来のプログラム・バイ・サンプル法とSOTA進化・エージェントのベースラインを全ての難易度と様々なLSMで一貫した性能を保ちながら、同等のサンプリング予算でテスト時間スケーリング戦略を大幅に上回っていることが示された。
関連論文リスト
- DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode [56.14374797825548]
よりエラー耐性の高い擬似コードに基づいて予測を行うLLMベースの擬似コード実行を提案する。
両手法を機能的多数決で組み合わせた二重実行フレームワークであるDuETを提案する。
LiveCodeBenchでは、DuETは最先端のパフォーマンスを実現し、Pass@1を13.6ppで改善した。
論文 参考訳(メタデータ) (2026-04-13T14:18:58Z) - Breaking Validity-Induced Boundaries to Expand Algorithm Search Space: A Two-Stage AST-Based Operator for LLM-Driven Automated Heuristic Evolution [0.0]
LLM-AHDのための2段階構造に基づく進化演算子を提案する。
最初の段階では、コードの抽象構文木(AST)上で、クロスオーバーと突然変異を直接実行します。
第2段階では、LLMはこれらの無効コードを実行可能で高品質なコードに修復するために使用される。
論文 参考訳(メタデータ) (2026-04-03T07:35:43Z) - DUET: Agentic Design Understanding via Experimentation and Testing [6.787641711048685]
DUETは、実験とテストによる設計理解を開発するための一般的な方法論である。
仮説を反復的に生成し、EDAツールでテストし、結果を統合して、設計のボトムアップ理解を構築する。
DUETは,実験なしでのベースラインフローと比較して,形式的検証においてAIエージェントの性能を向上させることを示す。
論文 参考訳(メタデータ) (2025-12-06T02:16:28Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - DecoRTL: A Run-time Decoding Framework for RTL Code Generation with LLMs [0.0]
大規模言語モデル (LLM) は構造的あいまいさや意味的複雑さの領域において信頼性が低いことを示す。
本稿では,新しい実行時デコーディング戦略であるDecoRTLを紹介する。
私たちのアプローチは、追加のモデル微調整を必要とせずに、完全に推論時に動作します。
論文 参考訳(メタデータ) (2025-07-03T01:17:44Z) - Program Semantic Inequivalence Game with Large Language Models [20.43560028315856]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。
本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。
この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文 参考訳(メタデータ) (2025-05-02T20:03:35Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。