論文の概要: Is Your Automated Software Engineer Trustworthy?
- arxiv url: http://arxiv.org/abs/2506.17812v1
- Date: Sat, 21 Jun 2025 20:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.597767
- Title: Is Your Automated Software Engineer Trustworthy?
- Title(参考訳): あなたの自動化されたソフトウェアエンジニアは信頼できるか?
- Authors: Noble Saji Mathews, Meiyappan Nagappan,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学のタスクでますます使われています。
LLMはすべての問題に応答し、入力があいまいであったり、出力が間違っていたとしても、すべてのケースに対してパッチを生成する。
これは、幻覚的なコード変更や、あいまいな問題レポートに基づいたレスポンスといった、信頼性の低い振る舞いにつながります。
我々は、LLMベースのソフトウェアエージェントが入力が未定義の場合に動作しないかどうかを評価するベンチマークであるBouncerBenchを紹介する。
- 参考スコア(独自算出の注目度): 0.850206009406913
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are being increasingly used in software engineering tasks, with an increased focus on bug report resolution over the past year. However, most proposed systems fail to properly handle uncertain or incorrect inputs and outputs. Existing LLM-based tools and coding agents respond to every issue and generate a patch for every case, even when the input is vague or their own output is incorrect. There are no mechanisms in place to abstain when confidence is low. This leads to unreliable behaviour, such as hallucinated code changes or responses based on vague issue reports. We introduce BouncerBench, a benchmark that evaluates whether LLM-based software agents can refuse to act when inputs are ill-defined or refuse to respond when their own outputs are likely to be incorrect. Unlike prior benchmarks that implicitly incentivize models to generate responses even when uncertain, BouncerBench aims to improve precision by targeting two overlooked failure points: (1) vague or underspecified issue descriptions in tickets and (2) logically or functionally incorrect code patches created by the system. It measures whether proposed systems can distinguish actionable issues from vague tickets and valid patches from untrustworthy ones. We also implement a basic input and output bouncer, evaluating how well current LLMs can abstain when needed. Our results show that most models fail to abstain from underspecified inputs or incorrect outputs. Hence, we conclude that there is significant room for improvement before LLMs can be trusted to make correct decisions and recommendations in real-world software engineering workflows. BouncerBench provides a first step toward evaluating and building more cautious, trustworthy code agents. The replication package, dataset, and leaderboard can be found at bouncerbench.com
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学のタスクでの利用が増えている。
しかし、ほとんどのシステムでは不確かさや不正確な入力や出力を適切に処理することができない。
既存のLCMベースのツールとコーディングエージェントはすべての問題に応答し、入力があいまいで、あるいは出力が間違っていても、すべてのケースに対してパッチを生成する。
信頼度が低い場合には、棄権するためのメカニズムはありません。
これは、幻覚的なコード変更や、あいまいな問題レポートに基づいたレスポンスといった、信頼性の低い振る舞いにつながります。
BouncerBench は LLM ベースのソフトウェアエージェントが入力が正しく定義されていない場合の動作を拒否するか,あるいは出力が間違っていた場合の応答を拒否するかを評価するベンチマークである。
BouncerBenchは、不確実な場合でもモデルに反応を暗黙的にインセンティブを与える以前のベンチマークとは異なり、2つの見過ごされた障害点をターゲットにして精度を向上させることを目指している。
提案システムは,不確実なチケットと不確実なパッチを区別できるかどうかを計測する。
また,入力バウンサーや出力バウンサーも実装し,現在のLCMが要求された時にどの程度の速度で停止できるかを評価する。
その結果、ほとんどのモデルでは、不特定な入力や誤った出力を無視できないことがわかった。
したがって、現実のソフトウェアエンジニアリングワークフローにおいて、LCMが正しい意思決定とレコメンデーションを行うことができるまでには、改善の余地がかなりあると結論付けている。
BouncerBenchは、より慎重で信頼できるコードエージェントを評価し、構築するための第一歩を提供する。
レプリケーションパッケージ、データセット、およびリーダーボードはbouncerbench.comで見ることができる。
関連論文リスト
- Towards Automated Formal Verification of Backend Systems with LLMs [9.66648456498893]
バックエンドのコードを形式的なリーン表現に変換するために,関数型プログラミングと型システムを活用する新しいフレームワークを提案する。
我々のパイプラインは、APIやデータベース操作の意図した振る舞いを規定する定理を自動生成し、LSMベースのプロバーを用いて検証する。
本手法を現実的なバックエンドシステム上で評価した結果,テスト要件の50%以上を正式に検証できることがわかった。
論文 参考訳(メタデータ) (2025-04-13T16:49:37Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - SpecRover: Code Intent Extraction via LLMs [7.742980618437681]
仕様推論は、高品質なプログラムパッチを作成するのに役立ちます。
当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。
2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。
論文 参考訳(メタデータ) (2024-08-05T04:53:01Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。