論文の概要: Vibe Coding on Trial: Operating Characteristics of Unanimous LLM Juries
- arxiv url: http://arxiv.org/abs/2602.18492v1
- Date: Thu, 12 Feb 2026 20:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.618493
- Title: Vibe Coding on Trial: Operating Characteristics of Unanimous LLM Juries
- Title(参考訳): 裁判におけるバイブ符号化:全球LLM判定器の動作特性
- Authors: Muhammad Aziz Ullah, Abdul Serwadda,
- Abstract要約: 大きな言語モデル(LLM)は、開発者が平易な言語でインテントを記述するのに十分なコーディング能力を持っている。
欠けているのは、人間に全てを送ることなく、どのモデルで書かれたクエリが安全に受け入れられるかを判断する信頼性の高い方法だ。
- 参考スコア(独自算出の注目度): 0.42970700836450476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are now good enough at coding that developers can describe intent in plain language and let the tool produce the first code draft, a workflow increasingly built into tools like GitHub Copilot, Cursor, and Replit. What is missing is a reliable way to tell which model written queries are safe to accept without sending everything to a human. We study the application of an LLM jury to run this review step. We first benchmark 15 open models on 82 MySQL text to SQL tasks using an execution grounded protocol to get a clean baseline of which models are strong. From the six best models we build unanimous committees of sizes 1 through 6 that see the prompt, schema, and candidate SQL and accept it only when every member says it is correct. This rule matches safety first deployments where false accepts are more costly than false rejects. We measure true positive rate, false positive rate and Youden J and we also look at committees per generator. Our results show that single model judges are uneven, that small unanimous committees of strong models can cut false accepts while still passing many good queries, and that the exact committee composition matters significantly.
- Abstract(参考訳): 大きな言語モデル(LLM)は、開発者が平易な言語でインテントを記述でき、ツールが最初のコードドラフトを生成することができるほど、コーディングに適している。
欠けているのは、人間に全てを送ることなく、どのモデルで書かれたクエリが安全に受け入れられるかを判断する信頼性の高い方法だ。
本稿では,LLM審査員による審査段階の実施について検討する。
私たちはまず,82のMySQLテキストからSQLタスクへの15のオープンモデルをベンチマークしました。
6つの最高のモデルから、すべてのメンバがそれが正しいと言う場合にのみ、プロンプト、スキーマ、候補SQLを確認する、サイズ1から6の満場一致の委員会を構築します。
このルールは、偽の受け入れが偽の拒絶よりもコストがかかる、安全の最初のデプロイメントと一致します。
正の正のレート、偽の正のレート、そしてユーデンJを測り、ジェネレータ当たりの委員会も調べます。
以上の結果から, 単一モデル審査員は不均一であり, 強力なモデルからなる小委員会が, 優れたクエリを多く受けながら, 偽の受け入れを減らしうること, 正確な構成が重要であること, が示唆された。
関連論文リスト
- Improving Code Generation via Small Language Model-as-a-judge [14.067404766521607]
我々は、コード正当性判断として最先端のSLMをいくつか訓練し、正しい実装と間違った実装を区別する能力を評価する。
現代のSLMは,実行ベース情報を活用することなく,RanEFよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-02-12T13:07:36Z) - Can Large Language Models Implement Agent-Based Models? An ODD-based Replication Study [0.6821122205224714]
大規模言語モデル(LLM)は、テキスト記述から非自明な実行可能なコードを合成できるようになった。
LLMは、複製、検証、検証をサポートする方法で、標準化された仕様からエージェントベースのモデルを確実に実装できますか?
制御されたODD-to-code翻訳タスクにおいて17の現代LLMを評価する。
論文 参考訳(メタデータ) (2026-02-08T19:56:20Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - Reinforcing Code Generation: Improving Text-to-SQL with Execution-Based Learning [29.132256439168323]
大規模言語モデル(LLM)を用いたコード生成の問題点について検討する。
RL-tuningは、問合せペアの形で弱い監督しか行わず、モデル生成sql符号の精度を31.49から49.83に改善し、誤り率を25.43%から14.71%に下げる。
論文 参考訳(メタデータ) (2025-06-06T13:52:41Z) - CLEVER: A Curated Benchmark for Formally Verified Code Generation [53.5486188696892]
$rm Csmall LEVER$は、リーンにおけるエンドツーエンドのコード生成のための161の問題を、高品質でキュレートしたベンチマークである。
それぞれの問題は、(1)堅実な仕様と一致する仕様を生成するタスク、(2)この仕様を確実に満足するリーン実装を生成するタスクで構成されています。
論文 参考訳(メタデータ) (2025-05-20T05:15:47Z) - AI-Assisted SQL Authoring at Industry Scale [9.633217240177494]
SqlComposeは、データ分析ドメインに生成AIを提供する。
我々は,各問題の重要性を示す一連のモデルを開発する。
我々はPublic Llamaモデルの性能を評価する。
SqlComposeFIMは、完了すべき行の前後のコンテキストを認識している。
論文 参考訳(メタデータ) (2024-07-18T08:33:39Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Using Large Language Models for Commit Message Generation: A Preliminary
Study [5.5784148764236114]
大規模言語モデル(LLM)はコミットメッセージを自動かつ効果的に生成するために使用することができる。
366サンプルの78%では, LLMが生成したコミットメッセージが人間によって最高のものと評価された。
論文 参考訳(メタデータ) (2024-01-11T14:06:39Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。