Fugu-MT 論文翻訳(概要): PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code

論文の概要: PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code

arxiv url: http://arxiv.org/abs/2512.10713v1
Date: Thu, 11 Dec 2025 14:49:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-12 16:15:42.427016
Title: PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code
Title（参考訳）: PACIFIC: インコードによる精密チェックインストラクションチェックのためのベンチマーク生成フレームワーク
Authors: Itay Dreyfuss, Antonio Abu Nassar, Samuel Ackerman, Axel Ben David, Rami Katan, Orna Raz, Marcel Zalmanovici,
Abstract要約: 大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。 PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
参考スコア（独自算出の注目度）: 1.1164117387254457
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM)-based code assistants have emerged as a powerful application of generative AI, demonstrating impressive capabilities in code generation and comprehension. A key requirement for these systems is their ability to accurately follow user instructions. We present Precise Automatically Checked Instruction Following In Code (PACIFIC), a novel framework designed to automatically generate benchmarks that rigorously assess sequential instruction-following and code dry-running capabilities in LLMs, while allowing control over benchmark difficulty. PACIFIC produces benchmark variants with clearly defined expected outputs, enabling straightforward and reliable evaluation through simple output comparisons. In contrast to existing approaches that often rely on tool usage or agentic behavior, our work isolates and evaluates the LLM's intrinsic ability to reason through code behavior step-by-step without execution (dry running) and to follow instructions. Furthermore, our framework mitigates training data contamination by facilitating effortless generation of novel benchmark variations. We validate our framework by generating a suite of benchmarks spanning a range of difficulty levels and evaluating multiple state-of-the-art LLMs. Our results demonstrate that PACIFIC can produce increasingly challenging benchmarks that effectively differentiate instruction-following and dry running capabilities, even among advanced models. Overall, our framework offers a scalable, contamination-resilient methodology for assessing core competencies of LLMs in code-related tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力なアプリケーションとして登場し、コード生成と理解において印象的な能力を発揮している。これらのシステムにとって重要な要件は、正確にユーザー指示に従う能力である。本稿では,LLMにおける逐次命令追従とコードドライランニング機能を厳格に評価し,ベンチマークの難易度を制御しながら,ベンチマークを自動的に生成する新しいフレームワークPACIFICを提案する。 PACIFICは、期待される出力を明確に定義したベンチマーク変種を生成し、単純な出力比較によって、単純で信頼性の高い評価を可能にする。ツールの使用やエージェントの動作によく依存する既存のアプローチとは対照的に、当社の作業は、LCMが実行せずに段階的にコード動作を解析し、指示に従うという本質的な能力を分離し、評価します。さらに,我々のフレームワークは,新しいベンチマークのバリエーションを無駄に生成することで,データ汚染のトレーニングを緩和する。我々は、様々な難易度にまたがるベンチマークスイートを作成し、複数の最先端のLCMを評価することにより、我々のフレームワークを検証する。以上の結果から,PACIFICは高度なモデルであっても,命令追従とドライランニングを効果的に区別できる,ますます困難なベンチマークを作成できることが示された。全体として、私たちのフレームワークは、コード関連タスクにおけるLLMのコア能力を評価するためのスケーラブルで汚染耐性のある方法論を提供します。

関連論文リスト

CelloAI Benchmarks: Toward Repeatable Evaluation of AI Assistants [2.2811622267552014]
大規模言語モデル(LLM)は、ソフトウェア開発にますます使われている。 LLMベースのコーディング支援のための既存のベンチマークは、高エネルギー物理学と高性能コンピューティングソフトウェアの制約を反映していない。本稿では,HEP/HPC関連タスクにおけるLLM性能を定量化する,実用的で繰り返し可能なベンチマークを開発する。
論文参考訳（メタデータ） (2026-03-01T11:16:50Z)
Easy Data Unlearning Bench [53.1304932656586]
アンラーニングアルゴリズムの評価を簡略化する統一型ベンチマークスイートを導入する。セットアップとメトリクスの標準化により、未学習のメソッド間で再現性、拡張性、公正な比較が可能になる。
論文参考訳（メタデータ） (2026-02-18T12:20:32Z)
Evaluating and Achieving Controllable Code Completion in Code LLM [89.64782747840225]
命令誘導型コード補完ベンチマークである制御可能コード補完ベンチマーク(C3-Bench)を提案する。コード補完作業中に,オープンソースのプロプライエタリモデルと高度なプロプライエタリモデルの間に,命令追従機能にかなりのギャップがあることを明らかにする。結果として得られたQwen2.5-Coder-C3は、C3-Bench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-01-22T11:40:04Z)
InfoSynth: Information-Guided Benchmark Synthesis for LLMs [69.80981631587501]
大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。従来のベンチマーク作成は人手による作業に依存しています。この作業では、推論ベンチマークの自動生成と評価のための新しいフレームワークであるInfo Synthを紹介した。
論文参考訳（メタデータ） (2026-01-02T05:26:27Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark for Large Language Models [29.093730687124047]
MCBenchは,LLMが厳密なステップバイステップ命令に従うことで,文字列マッチングNLPメトリクスの実行が可能なかどうかを評価するためのベンチマークである。主観的判断や一般的な推論に依存する以前のベンチマークとは異なり、MCBenchは客観的、決定論的、コード検証可能な評価を提供する。
論文参考訳（メタデータ） (2025-10-09T07:43:15Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文参考訳（メタデータ） (2025-05-13T23:47:12Z)
TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。 CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。