論文の概要: Vibe-Coding: Feedback-Based Automated Verification with no Human Code Inspection, a Feasibility Study
- arxiv url: http://arxiv.org/abs/2604.14867v1
- Date: Thu, 16 Apr 2026 10:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.853916
- Title: Vibe-Coding: Feedback-Based Automated Verification with no Human Code Inspection, a Feasibility Study
- Title(参考訳): Vibe-Coding: 人間のコード検査を伴わないフィードバックベースの自動検証
- Authors: Michal Töpfer, František Plášil, Tomáš Bureš, Petr Hnětynka,
- Abstract要約: 本稿では, 集団適応システム(CAS)におけるLCM生成適応マネージャのフィードバックに基づく自動検証について検討する。
ループにおける検証の主な課題は、実行時に生成されたコードの障害を検出する方法と、それをレポートする方法である。
この結果から,プログラムスキルを持たないドメインエキスパートが設計したシステムにおいて,フィードバック精度が信頼性の高いビブ符号化の主要な要因であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vibe coding inherently assumes iterative refinement of LLM-generated code through feedback loops. While effective for conventional software tasks, its reliability in runtime-adaptive systems is unclear -- especially when generated code is not manually inspected. This paper studies feedback-based automated verification of LLM-generated adaptation managers in Collective Adaptive Systems (CAS). We focus on the key challenges of verification in the loop: how to detect failures of generated code at runtime and how to report them precisely enough for an LLM to fix them. We combine the adaptation loop with a vibe-coding feedback loop where correctness is checked against (i) generic architectural constraints and (ii) functional constraints formalized in Functional Constraints Logic (FCL), a novel first-order temporal logic over potentially finite traces. Conducting the Dragon Hunt CAS case study, we show that fine-grained constraint violations provide actionable feedback that typically yields a valid adaptation manager within a few iterations, while simple coarse metric-based feedback often stalls. Our findings suggest that feedback precision is the dominant factor for reliable vibe coding in systems designed by domain experts with no programming skills, thereby obviating the need for human code inspection.
- Abstract(参考訳): ビブ符号は、フィードバックループを通じてLLM生成コードの反復的な洗練を前提としている。
従来のソフトウェアタスクには有効だが、実行時適応システムの信頼性は不明確だ。
本稿では, 集団適応システム(CAS)におけるLCM生成適応マネージャのフィードバックに基づく自動検証について検討する。
ループにおける検証の主な課題は、実行時に生成されたコードの障害を検出する方法と、LLMがそれらを修正するのに十分な精度でそれを報告する方法である。
適応ループとビブ符号フィードバックループを組み合わせ、正当性をチェックする。
(一)一般的な建築上の制約及び
(ii)機能制約論理(FCL)で定式化された機能制約は、潜在的に有限なトレースに対する新しい一階時間論理である。
Dragon HuntのCASケーススタディでは、きめ細かい制約違反は、いくつかのイテレーションで有効な適応マネージャが得られるのに対して、単純な粗いメトリックベースのフィードバックは行き詰まることがよくあります。
この結果から,プログラムスキルを持たないドメインエキスパートが設計したシステムにおいて,フィードバック精度が信頼性の高いビブ符号化の主要な要因であることが示唆された。
関連論文リスト
- Are LLMs Reliable Code Reviewers? Systematic Overcorrection in Requirement Conformance Judgement [8.059802912761919]
我々は,大規模言語モデル(LLM)が自然言語要求にマッチするコードの体系的失敗を明らかにする。
より詳細なプロンプト設計、特に説明や修正提案を必要とするものは、より高い誤判定率をもたらす。
そこで本稿では,提案した修正を実効的証拠として扱う固定誘導検証フィルタを提案する。
論文 参考訳(メタデータ) (2026-02-28T08:35:25Z) - Feedback-based Automated Verification in Vibe Coding of CAS Adaptation Built on Constraint Logic [0.0]
CAS適応では、システムの動的アーキテクチャと振る舞いの変化を定義することが課題である。
生成LDMの進歩により、システム仕様と望ましいAM動作に基づいてAMコードを生成することは魅力的な機会である。
提案手法は, 動作条件の極めて正確な定式化に基づいて生成したAMの検証を行う場合, ビブ符号化フィードバックループによるAM生成が有効な選択肢であることを示す。
論文 参考訳(メタデータ) (2026-02-20T20:49:12Z) - CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs [13.488544043942495]
本研究の目的は、コード生成中に論理的妥当性を予測可能な内部デオード可能な信号が、モデル内のニューラルダイナミクスで符号化されているかどうかを検討することである。
複雑な残留流を分解することにより,音の推論と論理的失敗を区別する構造的シグネチャを同定することを目的とする。
Python、C++、Javaでの分析では、固有の正当性信号が多様な構文で堅牢であることが確認されている。
論文 参考訳(メタデータ) (2026-02-06T03:49:15Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Mechanistic Interpretability of Code Correctness in LLMs via Sparse Autoencoders [0.0]
スパースオートエンコーダを用いて大規模言語モデルを分解し,コード正当性に対応する方向を特定する。
LLMにおける符号の正当性方向は誤りを確実に予測するのに対して、補正能力は統計的に有意であるが、修正エラーと正しい符号の保存との間にはトレードオフがある。
戦略の推進は、詳細な問題記述よりもテスト例を優先すべきであり、予測器の指示は、開発者レビューのエラーアラームとして機能し、これらの予測器は選択的なステアリングをガイドできる。
論文 参考訳(メタデータ) (2025-10-03T11:44:21Z) - Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications [0.6813925418351435]
大規模言語モデル(LLM)はソフトウェア開発において不可欠なツールとなり、要求工学、コード生成、レビュータスクに広く利用されている。
本稿では,LLMが自然言語の要求に適合するかどうかを評価する上で,体系的に失敗していることを明らかにする。
以上の結果から,LCMは要件を満たすことのできないコード実装や潜在的な欠陥を含むコード実装を誤って分類することが多いことが判明した。
論文 参考訳(メタデータ) (2025-08-17T13:07:26Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。