論文の概要: PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code
- arxiv url: http://arxiv.org/abs/2512.10713v1
- Date: Thu, 11 Dec 2025 14:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.427016
- Title: PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code
- Title(参考訳): PACIFIC: インコードによる精密チェックインストラクションチェックのためのベンチマーク生成フレームワーク
- Authors: Itay Dreyfuss, Antonio Abu Nassar, Samuel Ackerman, Axel Ben David, Rami Katan, Orna Raz, Marcel Zalmanovici,
- Abstract要約: 大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。
これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。
PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 1.1164117387254457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based code assistants have emerged as a powerful application of generative AI, demonstrating impressive capabilities in code generation and comprehension. A key requirement for these systems is their ability to accurately follow user instructions. We present Precise Automatically Checked Instruction Following In Code (PACIFIC), a novel framework designed to automatically generate benchmarks that rigorously assess sequential instruction-following and code dry-running capabilities in LLMs, while allowing control over benchmark difficulty. PACIFIC produces benchmark variants with clearly defined expected outputs, enabling straightforward and reliable evaluation through simple output comparisons. In contrast to existing approaches that often rely on tool usage or agentic behavior, our work isolates and evaluates the LLM's intrinsic ability to reason through code behavior step-by-step without execution (dry running) and to follow instructions. Furthermore, our framework mitigates training data contamination by facilitating effortless generation of novel benchmark variations. We validate our framework by generating a suite of benchmarks spanning a range of difficulty levels and evaluating multiple state-of-the-art LLMs. Our results demonstrate that PACIFIC can produce increasingly challenging benchmarks that effectively differentiate instruction-following and dry running capabilities, even among advanced models. Overall, our framework offers a scalable, contamination-resilient methodology for assessing core competencies of LLMs in code-related tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力なアプリケーションとして登場し、コード生成と理解において印象的な能力を発揮している。
これらのシステムにとって重要な要件は、正確にユーザー指示に従う能力である。
本稿では,LLMにおける逐次命令追従とコードドライランニング機能を厳格に評価し,ベンチマークの難易度を制御しながら,ベンチマークを自動的に生成する新しいフレームワークPACIFICを提案する。
PACIFICは、期待される出力を明確に定義したベンチマーク変種を生成し、単純な出力比較によって、単純で信頼性の高い評価を可能にする。
ツールの使用やエージェントの動作によく依存する既存のアプローチとは対照的に、当社の作業は、LCMが実行せずに段階的にコード動作を解析し、指示に従うという本質的な能力を分離し、評価します。
さらに,我々のフレームワークは,新しいベンチマークのバリエーションを無駄に生成することで,データ汚染のトレーニングを緩和する。
我々は、様々な難易度にまたがるベンチマークスイートを作成し、複数の最先端のLCMを評価することにより、我々のフレームワークを検証する。
以上の結果から,PACIFICは高度なモデルであっても,命令追従とドライランニングを効果的に区別できる,ますます困難なベンチマークを作成できることが示された。
全体として、私たちのフレームワークは、コード関連タスクにおけるLLMのコア能力を評価するためのスケーラブルで汚染耐性のある方法論を提供します。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark for Large Language Models [29.093730687124047]
MCBenchは,LLMが厳密なステップバイステップ命令に従うことで,文字列マッチングNLPメトリクスの実行が可能なかどうかを評価するためのベンチマークである。
主観的判断や一般的な推論に依存する以前のベンチマークとは異なり、MCBenchは客観的、決定論的、コード検証可能な評価を提供する。
論文 参考訳(メタデータ) (2025-10-09T07:43:15Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。
オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。
以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-31T07:43:12Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。