論文の概要: Verbal Process Supervision Elicits Better Coding Agents
- arxiv url: http://arxiv.org/abs/2503.18494v1
- Date: Mon, 24 Mar 2025 09:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:53.385660
- Title: Verbal Process Supervision Elicits Better Coding Agents
- Title(参考訳): より優れたコーディングエージェントを排除した言語プロセススーパービジョン
- Authors: Hao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao,
- Abstract要約: この研究は、言語プロセス監視(VPS)によって強化されたコード理解・推論エージェントであるCURAを導入している。
CURAはBigCodeBenchのような挑戦的なベンチマークでベースラインモデルよりも3.65%改善されている。
- 参考スコア(独自算出の注目度): 0.9558392439655016
- License:
- Abstract: The emergence of large language models and their applications as AI agents have significantly advanced state-of-the-art code generation benchmarks, transforming modern software engineering tasks. However, even with test-time computed reasoning models, these systems still struggle with complex software engineering challenges. This work introduces CURA, a code understanding and reasoning agent system enhanced with verbal process supervision (VPS), achieving a 3.65\% improvement over baseline models on challenging benchmarks like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and VPS techniques, attains state-of-the-art performance. This work represents a step forward in integrating reasoning-driven architectures with LLM-based code generation, enabling agentic reasoning for language models to solve complex software engineering tasks.
- Abstract(参考訳): 大規模言語モデルの出現とそのAIエージェントとしての応用は、最先端のコード生成ベンチマークを著しく進歩させ、現代のソフトウェアエンジニアリングタスクを変革させた。
しかし、テスト時間計算による推論モデルでさえ、これらのシステムは複雑なソフトウェアエンジニアリングの課題に苦しむ。
この研究は、言語プロセス監視(VPS)によって強化されたコード理解および推論エージェントシステムであるCURAを導入し、BigCodeBenchのような挑戦的なベンチマーク上で、ベースラインモデルよりも3.65倍改善された。
さらに、CURAは、o3-miniモデルとVPS技術と組み合わせることで、最先端のパフォーマンスを実現する。
この作業は、推論駆動アーキテクチャとLLMベースのコード生成を統合するための一歩であり、複雑なソフトウェアエンジニアリングタスクを解決するために、言語モデルに対するエージェント推論を可能にする。
関連論文リスト
- Guided Code Generation with LLMs: A Multi-Agent Framework for Complex Code Tasks [1.9198713957364215]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な機能を示している。
複雑な、長いコンテキストプログラミングの課題に対処する上で、それらは重大な制限に直面します。
「案内コード生成のための新しいエージェント・フレームワーク」について紹介する。
論文 参考訳(メタデータ) (2025-01-11T19:21:53Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Retrieval-Augmented Instruction Tuning for Automated Process Engineering Calculations : A Tool-Chaining Problem-Solving Framework with Attributable Reflection [0.0]
オープンでカスタマイズ可能な小型コード言語モデル(SLM)を強化するためにRAIT(Retrieval-Augmented Instruction-Tuning)を活用する新しい自律エージェントフレームワークを提案する。
命令チューニングされたコードSLMと外部ツールを使用してRACG(Retrieval-Augmented Code Generation)を組み合わせることで、エージェントは自然言語仕様からコードを生成し、デバッグし、最適化する。
我々のアプローチは、専門的なプロセスエンジニアリングタスクのための基礎的AIモデルの欠如の限界に対処し、説明可能性、知識編集、費用対効果の利点を提供する。
論文 参考訳(メタデータ) (2024-08-28T15:33:47Z) - Knowledge Graph Modeling-Driven Large Language Model Operating System (LLM OS) for Task Automation in Process Engineering Problem-Solving [0.0]
本稿では,化学・プロセス産業における複雑な問題の解決を目的としたAI駆動型フレームワークであるプロセスエンジニアリングオペレーションアシスタント(PEOA)を紹介する。
このフレームワークはメタエージェントによって構成されたモジュラーアーキテクチャを採用しており、中央コーディネータとして機能している。
その結果、計算の自動化、プロトタイピングの高速化、産業プロセスに対するAIによる意思決定支援におけるフレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-08-23T13:52:47Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - Towards Single-System Illusion in Software-Defined Vehicles -- Automated, AI-Powered Workflow [3.2821049498759094]
本稿では,車載ソフトウェアシステムの開発における,新しいモデルと特徴に基づくアプローチを提案する。
提案されたアプローチの重要なポイントの1つは、近代的な生成AI、特にLarge Language Models(LLM)の導入である。
その結果、パイプラインは広範囲に自動化され、各ステップでフィードバックが生成される。
論文 参考訳(メタデータ) (2024-03-21T15:07:57Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Evaluating GPT's Programming Capability through CodeWars' Katas [0.5512295869673147]
本稿では,GPT(Generative Pretrained Transformer)モデルのプログラミング能力の新たな評価法を提案する。
実験では、これらのGPTモデルがソリューション提供に苦しむ3休レベルでの明確な境界を明らかにした。
この研究は、人間の問題解決技術をうまくエミュレートするために、AIモデルにおけるバリデーションと創造的な思考能力の必要性を強調している。
論文 参考訳(メタデータ) (2023-05-31T10:36:16Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and
Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。
コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。
モデル信号認識における最大4.8倍の改善を実現している。
論文 参考訳(メタデータ) (2021-11-10T17:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。