論文の概要: VIBEPASS: Can Vibe Coders Really Pass the Vibe Check?
- arxiv url: http://arxiv.org/abs/2603.15921v1
- Date: Mon, 16 Mar 2026 21:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.991535
- Title: VIBEPASS: Can Vibe Coders Really Pass the Vibe Check?
- Title(参考訳): VIBEPASS:バイブ・プログラマーは本当にバイブ・チェックをパスできるのか?
- Authors: Srijan Bansal, Jiao Fangkai, Yilun Zhou, Austin Xu, Shafiq Joty, Semih Yavuz,
- Abstract要約: emphFault-Triggering Test Generation(FT-Test)とemphFault-targeted Program repair(FPR)の2つの組み合わせタスクを評価した。
故障対象推論は一般的な符号化能力ではスケールしないことがわかった。
自己生成テストが障害の発見に成功すると、結果として得られた修復結果が外部から提供されたテストによってガイドされた修復と一致したり、性能が低下する。
- 参考スコア(独自算出の注目度): 46.85901599242161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models shift the programming toward human-guided ''vibe coding'', agentic coding tools increasingly rely on models to self-diagnose and repair their own subtle faults -- a capability central to autonomous software engineering yet never systematically evaluated. We present \name{}, the first empirical decomposition that jointly evaluates two coupled tasks: \emph{Fault-Triggering Test Generation (FT-Test)} constructing a discriminative witness that exposes a latent bug, and \emph{Fault-targeted Program Repair (FPR)}, repairing it under varying diagnostic conditions. \name{} pairs competitive programming problems with LLM-generated solutions that pass partial test suites but fail on semantic edge cases, enabling controlled identification of where the diagnostic chain breaks down. Evaluating 12 frontier LLMs, we find that fault-targeted reasoning does not scale with general coding ability. Models produce syntactically valid test inputs at near-ceiling rates yet collapse on discriminative generation, with fault hypothesis generation -- not output validation -- as the dominant bottleneck. Test-guided repair reveals a complementary insight: when self-generated tests successfully witness a fault, the resulting repair matches or outperforms repair guided by externally provided tests, but tests that fail to witness the fault actively degrade repair below unguided baselines. Together, these results reframe the challenge of autonomous debugging: the binding bottleneck is not code synthesis or test validity but fault-target reasoning, a capability that remains deficient across all frontier models. As Large Language Models shift the programming toward human-guided ''vibe coding'', agentic coding tools increasingly rely on models to self-diagnose and repair their own subtle faults -- a capability central to autonomous software engineering yet never systematically evaluated.
- Abstract(参考訳): 大規模言語モデルがプログラミングを人間の指導する'バイブコーディング'へとシフトするにつれ、エージェント的コーディングツールはますますモデルに依存して、自身の微妙な欠陥を自己診断し、修復する — 自律的なソフトウェアエンジニアリングの中心的な能力であると同時に、体系的に評価されることもない — に依存している。
本稿では,2つの結合したタスクを共同で評価する最初の経験的分解である \name{} について述べる。
\name{}は、部分的なテストスイートをパスするがセマンティックエッジケースで失敗するLLM生成ソリューションと競合するプログラミング問題をペアリングし、診断チェーンの故障箇所を制御できる。
12のフロンティア LLM を評価すると、故障対象推論は一般的な符号化能力でスケールしないことがわかった。
モデルは、ほぼシーリング速度で構文的に有効なテスト入力を生成するが、差別的な生成では崩壊する。
自己生成テストが障害の発見に成功すると、結果として得られた修復結果が外部から提供されたテストによってガイドされた修復と一致したり、性能が低下する。
バインディングのボトルネックは、コード合成やテストの妥当性ではなく、フォールトターゲット推論であり、すべてのフロンティアモデルではまだ不十分な機能である。
大規模言語モデルがプログラミングを人間の指導する'バイブコーディング'へとシフトするにつれ、エージェント的コーディングツールはますますモデルに依存して、自身の微妙な欠陥を自己診断し、修復する — 自律的なソフトウェアエンジニアリングの中心的な能力であると同時に、体系的に評価されることもない — に依存している。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Learning to Pay Attention: Unsupervised Modeling of Attentive and Inattentive Respondents in Survey Data [0.14323566945483493]
注意点検などの従来の安全対策は、コストが高く、反応性があり、一貫性がないことが多い。
補完的な教師なしビューを用いた不注意検出のための統一型ラベルフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-02T22:11:51Z) - ProbeLLM: Automating Principled Diagnosis of LLM Failures [89.44131968886184]
ProbeLLMはベンチマークに依存しない自動探索フレームワークで、個々の障害から構造的障害モードへの脆弱性発見を増大させる。
ProbeLLMは、検証可能なテストケースにプローブを制限し、ツールの拡張された生成と検証を活用することで、信頼性のある証拠として障害発見を根拠とする。
論文 参考訳(メタデータ) (2026-02-13T14:33:13Z) - CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs [13.488544043942495]
本研究の目的は、コード生成中に論理的妥当性を予測可能な内部デオード可能な信号が、モデル内のニューラルダイナミクスで符号化されているかどうかを検討することである。
複雑な残留流を分解することにより,音の推論と論理的失敗を区別する構造的シグネチャを同定することを目的とする。
Python、C++、Javaでの分析では、固有の正当性信号が多様な構文で堅牢であることが確認されている。
論文 参考訳(メタデータ) (2026-02-06T03:49:15Z) - The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Fix the Tests: Augmenting LLMs to Repair Test Cases with Static Collector and Neural Reranker [9.428021853841296]
本稿では, TROCtxsの精密かつ高精度な構築により, 旧来の検査ケースを自動的に修復する新しい手法であるSynTERを提案する。
構築されたTROCtxの増強により、幻覚は57.1%減少する。
論文 参考訳(メタデータ) (2024-07-04T04:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。