論文の概要: Verbal Process Supervision Elicits Better Coding Agents
- arxiv url: http://arxiv.org/abs/2503.18494v1
- Date: Mon, 24 Mar 2025 09:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:17.19487
- Title: Verbal Process Supervision Elicits Better Coding Agents
- Title(参考訳): より優れたコーディングエージェントを排除した言語プロセススーパービジョン
- Authors: Hao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao,
- Abstract要約: この研究は、言語プロセス監視(VPS)によって強化されたコード理解・推論エージェントであるCURAを導入している。
CURAはBigCodeBenchのような挑戦的なベンチマークでベースラインモデルよりも3.65%改善されている。
- 参考スコア(独自算出の注目度): 0.9558392439655016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of large language models and their applications as AI agents have significantly advanced state-of-the-art code generation benchmarks, transforming modern software engineering tasks. However, even with test-time computed reasoning models, these systems still struggle with complex software engineering challenges. This work introduces CURA, a code understanding and reasoning agent system enhanced with verbal process supervision (VPS), achieving a 3.65\% improvement over baseline models on challenging benchmarks like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and VPS techniques, attains state-of-the-art performance. This work represents a step forward in integrating reasoning-driven architectures with LLM-based code generation, enabling agentic reasoning for language models to solve complex software engineering tasks.
- Abstract(参考訳): 大規模言語モデルの出現とそのAIエージェントとしての応用は、最先端のコード生成ベンチマークを著しく進歩させ、現代のソフトウェアエンジニアリングタスクを変革させた。
しかし、テスト時間計算による推論モデルでさえ、これらのシステムは複雑なソフトウェアエンジニアリングの課題に苦しむ。
この研究は、言語プロセス監視(VPS)によって強化されたコード理解および推論エージェントシステムであるCURAを導入し、BigCodeBenchのような挑戦的なベンチマーク上で、ベースラインモデルよりも3.65倍改善された。
さらに、CURAは、o3-miniモデルとVPS技術と組み合わせることで、最先端のパフォーマンスを実現する。
この作業は、推論駆動アーキテクチャとLLMベースのコード生成を統合するための一歩であり、複雑なソフトウェアエンジニアリングタスクを解決するために、言語モデルに対するエージェント推論を可能にする。
関連論文リスト
- Advancing Language Models for Code-related Tasks [3.1580161263510855]
言語モデル(LM)の最近の進歩は、様々なソフトウェア工学のタスクにおいて大きな進歩をもたらした。
しかし、既存のLMはデータ品質、モデルアーキテクチャ、推論能力の制限のために複雑なプログラミングシナリオに苦戦している。
本研究は3つの相補的な方向を通してこれらの課題を体系的に解決する。
論文 参考訳(メタデータ) (2026-01-08T02:48:01Z) - AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Large Language Models in Operations Research: Methods, Applications, and Challenges [9.208082097215314]
オペレーションリサーチ(OR)は、輸送、サプライチェーン管理、生産スケジュールなど、複雑なシステム決定を支援する。
専門家主導のモデリングと手動パラメータチューニングに依存する従来のアプローチは、しばしば大規模、動的、マルチ制約の問題に悩まされる。
本稿では,大規模言語モデル(LLM)をORに適用し,既存の手法を3つの経路に分類する。
論文 参考訳(メタデータ) (2025-09-18T01:52:19Z) - Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision [4.55391222496256]
大規模言語モデル(LLM)は、生成人工知能の活発で有望な分野として機能する。
本研究では,科学計算における代表的問題を解くための新しいエージェント・フレームワークを構築する。
提案するエージェントは,「リライト・レゾリューション・リビジョン・リビジョン」論理的連鎖を取り入れ,協調的かつ対話的な方法で統合されている。
論文 参考訳(メタデータ) (2025-08-28T12:50:48Z) - A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。
LLMは3つのコア特徴によって特徴づけられる。
本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文 参考訳(メタデータ) (2025-07-31T18:17:36Z) - Hey AI, Generate Me a Hardware Code! Agentic AI-based Hardware Design & Verification [2.8236458753814233]
本稿では,エージェントAIを用いたハードウェア設計検証手法を提案する。
エージェントAIベースのアプローチは、Humain-in-the-Loop(HITL)介入と連携して、よりダイナミックで反復的で自己反映的なプロセスに従事するAIエージェントに権限を与える。
この手法は5つのオープンソース設計で評価され、95%以上のカバレッジを達成し、検証時間を短縮する。
論文 参考訳(メタデータ) (2025-07-03T14:20:57Z) - Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。
しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。
我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文 参考訳(メタデータ) (2025-05-30T08:46:23Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - LLM Benchmarking with LLaMA2: Evaluating Code Development Performance Across Multiple Programming Languages [0.1906498126334485]
本稿では,Llama 2-70Bモデルがプログラミング言語で書かれた科学アプリケーションを自動化する能力について述べる。
コード、ドキュメンテーション、ユニットテストを生成するためのモデルの能力と、既存のコードをプログラミング言語間で翻訳する能力を評価します。
以上の結果から,Llama 2-70Bは,より単純な数値処理のために,構文的に正しい関数コードを生成することが多いが,より複雑で並列化された,あるいは分散計算ではかなりの困難に直面することが示唆された。
論文 参考訳(メタデータ) (2025-03-24T23:46:14Z) - Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。
コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。
我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2025-02-26T18:55:42Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - Guided Code Generation with LLMs: A Multi-Agent Framework for Complex Code Tasks [1.9198713957364215]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な機能を示している。
複雑な、長いコンテキストプログラミングの課題に対処する上で、それらは重大な制限に直面します。
「案内コード生成のための新しいエージェント・フレームワーク」について紹介する。
論文 参考訳(メタデータ) (2025-01-11T19:21:53Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Retrieval-Augmented Instruction Tuning for Automated Process Engineering Calculations : A Tool-Chaining Problem-Solving Framework with Attributable Reflection [0.0]
オープンでカスタマイズ可能な小型コード言語モデル(SLM)を強化するためにRAIT(Retrieval-Augmented Instruction-Tuning)を活用する新しい自律エージェントフレームワークを提案する。
命令チューニングされたコードSLMと外部ツールを使用してRACG(Retrieval-Augmented Code Generation)を組み合わせることで、エージェントは自然言語仕様からコードを生成し、デバッグし、最適化する。
我々のアプローチは、専門的なプロセスエンジニアリングタスクのための基礎的AIモデルの欠如の限界に対処し、説明可能性、知識編集、費用対効果の利点を提供する。
論文 参考訳(メタデータ) (2024-08-28T15:33:47Z) - Knowledge Graph Modeling-Driven Large Language Model Operating System (LLM OS) for Task Automation in Process Engineering Problem-Solving [0.0]
本稿では,化学・プロセス産業における複雑な問題の解決を目的としたAI駆動型フレームワークであるプロセスエンジニアリングオペレーションアシスタント(PEOA)を紹介する。
このフレームワークはメタエージェントによって構成されたモジュラーアーキテクチャを採用しており、中央コーディネータとして機能している。
その結果、計算の自動化、プロトタイピングの高速化、産業プロセスに対するAIによる意思決定支援におけるフレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-08-23T13:52:47Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.61968901704187]
本稿では,タスクを論理的なサブタスクとサブモジュールに分解するためのMoT命令チューニングフレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-26T08:49:57Z) - Evaluating GPT's Programming Capability through CodeWars' Katas [0.5512295869673147]
本稿では,GPT(Generative Pretrained Transformer)モデルのプログラミング能力の新たな評価法を提案する。
実験では、これらのGPTモデルがソリューション提供に苦しむ3休レベルでの明確な境界を明らかにした。
この研究は、人間の問題解決技術をうまくエミュレートするために、AIモデルにおけるバリデーションと創造的な思考能力の必要性を強調している。
論文 参考訳(メタデータ) (2023-05-31T10:36:16Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。