論文の概要: Evaluating LLM-Based 0-to-1 Software Generation in End-to-End CLI Tool Scenarios
- arxiv url: http://arxiv.org/abs/2604.06742v1
- Date: Wed, 08 Apr 2026 07:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.383631
- Title: Evaluating LLM-Based 0-to-1 Software Generation in End-to-End CLI Tool Scenarios
- Title(参考訳): エンドツーエンドCLIツールシナリオにおけるLCMベースの0-to-1ソフトウェア生成の評価
- Authors: Ruida Hu, Xinchen Wang, Chao Peng, Cuiyun Gao, David Lo,
- Abstract要約: CLI-Tool-Benchは、Command-Line Interfaceツールの基底生成を評価するための構造に依存しないベンチマークである。
ブラックボックスの差分テストフレームワークを通じて評価された100の現実世界のリポジトリが特徴だ。
エージェント生成ソフトウェアはサンドボックスで実行され、システムサイドエフェクトと端末出力を人書きのオークルと比較する。
- 参考スコア(独自算出の注目度): 13.708123854369303
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are driving a shift towards intent-driven development, where agents build complete software from scratch. However, existing benchmarks fail to assess this 0-to-1 generation capability due to two limitations: reliance on predefined scaffolds that ignore repository structure planning, and rigid white-box unit testing that lacks end-to-end behavioral validation. To bridge this gap, we introduce CLI-Tool-Bench, a structure-agnostic benchmark for evaluating the ground-up generation of Command-Line Interface (CLI) tools. It features 100 diverse real-world repositories evaluated via a black-box differential testing framework. Agent-generated software is executed in sandboxes, comparing system side effects and terminal outputs against human-written oracles using multi-tiered equivalence metrics. Evaluating seven state-of-the-art LLMs, we reveal that top models achieve under 43% success, highlighting the ongoing challenge of 0-to-1 generation. Furthermore, higher token consumption does not guarantee better performance, and agents tend to generate monolithic code.
- Abstract(参考訳): 大規模言語モデル(LLM)は、エージェントがスクラッチから完全なソフトウェアを構築する意図駆動開発へのシフトを推進している。
しかしながら、既存のベンチマークでは、リポジトリ構造計画を無視した事前定義された足場への依存と、エンドツーエンドの動作検証に欠ける厳格なホワイトボックスユニットテストという2つの制限があるため、この0-to-1生成能力を評価できない。
このギャップを埋めるために、CLI(Command-Line Interface)ツールの基盤生成を評価する構造に依存しないベンチマークであるCLI-Tool-Benchを紹介する。
ブラックボックスの差分テストフレームワークを通じて評価された100の現実世界のリポジトリが特徴だ。
エージェント生成ソフトウェアはサンドボックスで実行され、システムサイドエフェクトと端末出力をマルチ階層同値メトリクスを用いて人書きのオークルと比較する。
7つの最先端LCMを評価し、トップモデルが43%未満の成功を達成し、0-to-1世代で進行中の課題を浮き彫りにした。
さらに、より高いトークン消費はパフォーマンスを保証せず、エージェントはモノリシックなコードを生成する傾向がある。
関連論文リスト
- TestDecision: Sequential Test Suite Generation via Greedy Optimization and Reinforcement Learning [17.157244731153554]
MDPとしてテストスイートの生成を形式化し,その目的が単調な部分モジュラリティを示すことを示す。
本研究では,LSMを神経グリージーの専門家に変換するTestDecisionを提案する。
TestDecisionは既存の高度なメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-04-02T09:13:52Z) - MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use [72.53177559476704]
我々はエージェントツールの使用を評価するための実世界のベンチマークであるMCPVerseを紹介する。
MCPVerseは550以上の実世界の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成する。
私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークしました。
論文 参考訳(メタデータ) (2025-08-22T09:47:53Z) - You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Teaching Code LLMs to Use Autocompletion Tools in Repository-Level Code Generation [15.461189659020187]
コード大言語モデル(LLM)は、リポジトリレベルの依存関係に対する認識の欠如により、リポジトリレベルのコード生成の制限に直面します。
ToolGenは、自動補完ツールをコードLLM生成プロセスに統合し、これらの依存関係に対処するアプローチです。
ToolGenは、Trigger InsertionとModel Fine-tuning(Offline)とツール統合コード生成(Online)の2つの主要なフェーズで構成されている。
論文 参考訳(メタデータ) (2024-01-12T06:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。