論文の概要: From Helpful to Trustworthy: LLM Agents for Pair Programming
- arxiv url: http://arxiv.org/abs/2604.10300v1
- Date: Sat, 11 Apr 2026 17:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.945317
- Title: From Helpful to Trustworthy: LLM Agents for Pair Programming
- Title(参考訳): HelpfulからTrustworthyへ - ペアプログラミングのためのLLMエージェント
- Authors: Ragib Shahariar Ayon,
- Abstract要約: LLMベースのコーディングエージェントは、コード、テスト、ドキュメントの生成にますます使われています。
それでも、彼らのアウトプットは、開発者意図と正しく一致せず、進化するプロジェクトにおけるレビューの限られた証拠を提供することができる。
本研究では、意図を外部化し、反復検証に開発ツールを使用するマルチエージェントLLMペアプログラミングの体系的研究を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based coding agents are increasingly used to generate code, tests, and documentation. Still, their outputs can be plausible yet misaligned with developer intent and provide limited evidence for review in evolving projects. This limits our understanding of how to structure LLM pair-programming workflows so that artifacts remain reliable, auditable, and maintainable over time. To address this gap, this doctoral research proposes a systematic study of multi-agent LLM pair programming that externalizes intent and uses development tools for iterative validation. The plan includes three studies: translating informal problem statements into standards aligned requirements and formal specifications; refining tests and implementations using automated feedback, such as solver-backed counterexamples; and supporting maintenance tasks, including refactoring, API migrations, and documentation updates, while preserving validated behavior. The expected outcome is a clearer understanding of when multi-agent workflows increase trust, along with practical guidance for building reliable programming assistants for real-world development.
- Abstract(参考訳): LLMベースのコーディングエージェントは、コード、テスト、ドキュメントの生成にますます使われています。
それでも、彼らのアウトプットは、開発者意図と正しく一致せず、進化するプロジェクトにおけるレビューの限られた証拠を提供することができる。
これにより、LCMのペアプログラミングワークフローをどのように構成するかの理解が制限され、アーティファクトが信頼性を持ち、監査可能で、保守可能になります。
このギャップに対処するため,本研究では,意図を外部化し,反復的検証に開発ツールを使用するマルチエージェントLLMペアプログラミングの体系的研究を提案する。
計画には、3つの研究が含まれている: 非公式な問題ステートメントを標準に準拠した要件と正式な仕様に翻訳すること、ソルバが支援する反例のような自動的なフィードバックを使ってテストと実装を精査すること、リファクタリング、APIマイグレーション、ドキュメント更新などのメンテナンスタスクをサポートしながら、検証された振る舞いを保存すること。
期待される結果は、マルチエージェントワークフローがいつ信頼を増すかをより明確に理解し、実際の開発のための信頼性の高いプログラミングアシスタントを構築するための実践的なガイダンスである。
関連論文リスト
- Are LLMs Reliable Code Reviewers? Systematic Overcorrection in Requirement Conformance Judgement [8.059802912761919]
我々は,大規模言語モデル(LLM)が自然言語要求にマッチするコードの体系的失敗を明らかにする。
より詳細なプロンプト設計、特に説明や修正提案を必要とするものは、より高い誤判定率をもたらす。
そこで本稿では,提案した修正を実効的証拠として扱う固定誘導検証フィルタを提案する。
論文 参考訳(メタデータ) (2026-02-28T08:35:25Z) - Understanding Specification-Driven Code Generation with LLMs: An Empirical Study Design [2.687678248171195]
大規模言語モデル(LLM)は、ますますソフトウェア開発に統合されているが、構造化された仕様駆動プロセスにおけるそれらの振る舞いは、いまだに理解されていない。
本稿では,LLM支援コード生成のためのヒューマン・イン・ザ・ループ・ワークフローを実現するVisual Studio Code拡張であるCURRANTEを用いた実証的研究設計を提案する。
本研究の目的は,LLM生成コードの品質と力学に人間による介入がどう影響するかを解析することである。
論文 参考訳(メタデータ) (2026-01-07T12:46:57Z) - On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。
本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。
以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文 参考訳(メタデータ) (2025-07-30T20:39:45Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。