論文の概要: Vibe Checker: Aligning Code Evaluation with Human Preference
- arxiv url: http://arxiv.org/abs/2510.07315v1
- Date: Wed, 08 Oct 2025 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.692357
- Title: Vibe Checker: Aligning Code Evaluation with Human Preference
- Title(参考訳): Vibe Checker: コード評価を人間優先で調整する
- Authors: Ming Zhong, Xiang Zhou, Ting-Yun Chang, Qingze Wang, Nan Xu, Xiance Si, Dan Garrette, Shyam Upadhyay, Jeremiah Liu, Jiawei Han, Benoit Schillings, Jiao Sun,
- Abstract要約: 提案するVeriCodeは,30の検証可能なコード命令とそれに対応する決定論的検証器の分類法である。
最強モデルでさえ、複数の命令に従わず、明確な機能回帰を示すのに苦労していることを示す。
我々の研究は、バイブチェックの中核的な要素を特定し、モデルをベンチマークし、開発するための具体的なパスを提供します。
- 参考スコア(独自算出の注目度): 35.939058895669895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have catalyzed vibe coding, where users leverage LLMs to generate and iteratively refine code through natural language interactions until it passes their vibe check. Vibe check is tied to real-world human preference and goes beyond functionality: the solution should feel right, read cleanly, preserve intent, and remain correct. However, current code evaluation remains anchored to pass@k and captures only functional correctness, overlooking the non-functional instructions that users routinely apply. In this paper, we hypothesize that instruction following is the missing piece underlying vibe check that represents human preference in coding besides functional correctness. To quantify models' code instruction following capabilities with measurable signals, we present VeriCode, a taxonomy of 30 verifiable code instructions together with corresponding deterministic verifiers. We use the taxonomy to augment established evaluation suites, resulting in Vibe Checker, a testbed to assess both code instruction following and functional correctness. Upon evaluating 31 leading LLMs, we show that even the strongest models struggle to comply with multiple instructions and exhibit clear functional regression. Most importantly, a composite score of functional correctness and instruction following correlates the best with human preference, with the latter emerging as the primary differentiator on real-world programming tasks. Our work identifies core factors of the vibe check, providing a concrete path for benchmarking and developing models that better align with user preferences in coding.
- Abstract(参考訳): 大きな言語モデル(LLM)はビブコーディングを触媒し、ユーザがビブチェックをパスするまで、自然言語のインタラクションを通じてLLMを生成し、反復的にコードを洗練する。
Vibe Checkは現実世界の人間の好みに結びついており、機能を超えています。
しかし、現在のコード評価はpass@kに固定され、ユーザーが日常的に適用している非機能的命令を見渡すことで、機能的正確性のみをキャプチャする。
本稿では,機能的正当性以外のコーディングにおける人間の嗜好を表すバイブチェックの欠落点として,次の命令を仮定する。
測定可能な信号を用いてモデルのコード命令に従う能力を定量化するために,30の検証可能なコード命令とそれに対応する決定論的検証器の分類であるVeriCodeを提案する。
分類法を用いて、確立された評価スイートを増強し、結果としてVibe Checkerは、コード命令の追従と機能的正当性の両方を評価するテストベッドとなる。
最強のモデルでさえ複数の命令を順守し、明確な機能的回帰を示すのに苦戦していることを示す。
最も重要なことは、機能的正しさと指示の複合スコアが人間の好みと相関し、後者が現実世界のプログラミングタスクにおける主要な差別化要因として現れることである。
私たちの研究は、バイブチェックの中核的な要素を特定し、コーディングにおけるユーザの好みに適合するモデルをベンチマークし、開発するための具体的なパスを提供します。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - Learning Code Preference via Synthetic Evolution [20.897742297490275]
合成進化データからペアワイズコードの選好モデルを学習するためのフレームワークであるCodeFavorを提案する。
評価の結果、CodeFavorはモデルベースのコード優先の精度を最大28.8%改善した。
CodeFavorモデルは、34倍のコスト効率で、6-9倍のパラメータでモデルのパフォーマンスと一致させることができる。
論文 参考訳(メタデータ) (2024-10-04T18:05:22Z) - On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation [4.065344017083881]
CodeBERTScoreのような埋め込みベースのメトリクスを使って、機能的正確性や編集作業などの有用な構造を計測する能力を分析します。
その結果,機能的正当性(0.16)との相関は弱いものの,編集作業と強く相関している(0.72)ことがわかった。
論文 参考訳(メタデータ) (2024-04-26T15:54:39Z) - NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional Correctness [10.502272765892908]
既存のコード言語モデルの評価ベンチマーク(コードLM)は、LMが機能的に正しいコードを生成することができるかどうかにのみ焦点を絞っている。
非機能要件と非機能要件の両方に対する単純な分類インスタンスに基づいて、コードLMを評価するため、新しいベンチマークNoFunEvalを提案する。
私たちの発見は、LMがベンチマークでテストすると、一般的に失敗し、トレーニング設定の基本的な盲点を示唆していることです。
論文 参考訳(メタデータ) (2024-01-29T08:47:31Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。