Fugu-MT 論文翻訳(概要): A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback

論文の概要: A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback

arxiv url: http://arxiv.org/abs/2507.00699v1
Date: Tue, 01 Jul 2025 11:51:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.618424
Title: A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback
Title（参考訳）: マルチターンフィードバックによるファイングラインドコードインストラクションのための階層的・進化可能なベンチマーク
Authors: Guoliang Duan, Mingwei Liu, Yanlin Wang, Chong Wang, Xin Peng, Zibin Zheng,
Abstract要約: 大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
参考スコア（独自算出の注目度）: 30.446511584123492
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have advanced significantly in code generation, yet their ability to follow complex programming instructions with layered and diverse constraints remains underexplored. Existing benchmarks often prioritize functional correctness, overlooking the nuanced requirements found in real-world development. We introduce MultiCodeIF, a comprehensive benchmark designed to evaluate instruction-following in code generation across multiple dimensions: constraint type, hierarchical levels, and iterative refinement. Built upon a structured taxonomy of 9 categories and 27 constraint types, MultiCodeIF enables granular assessment of both functional and non-functional instruction adherence. Using an automated pipeline, ConstraGen, we synthesize and evolve 2,021 code tasks sourced from 14 programming languages, supporting multi-turn evaluation through feedback-driven task variants. Empirical evaluation of six state-of-the-art LLMs uncovers substantial performance disparities. The top-performing model, Claude-3-7-Sonnet, achieves 63.0% average constraint satisfaction, while smaller models like Qwen3-1.7B fall to 44.8%. Models perform well on explicit constraints, but struggle with implicit or abstract constraints. Tasks with multiple hierarchical constraints significantly reduce model success rates, from 54.5% in single-level to just 18.8% in multi-level scenarios. However, structured feedback enables progressive improvement: average constraint satisfaction rises from 63.0% to 83.4% over four iterative refinement rounds. MultiCodeIF provides a scalable, constraint-aware, and feedback-sensitive framework to benchmark LLMs under realistic code generation scenarios, bridging the gap between synthetic evaluations and real-world instruction complexity. The full benchmark dataset, evaluation pipeline, and source code are available at https://github.com/SYSUSELab/MultiCodeIF.
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。既存のベンチマークは、実世界の開発で見られる曖昧な要件を見越して、機能的正しさを優先することが多い。制約タイプ,階層レベル,反復的改善といった,複数次元にわたるコード生成における命令追従を評価するために設計された総合ベンチマークであるMultiCodeIFを紹介する。 9つのカテゴリと27の制約型からなる構造的分類に基づいて、MultiCodeIFは機能的および非機能的命令順守の両方をきめ細やかな評価を可能にする。自動パイプラインであるConstraGenを用いて、14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。 6つの最先端LCMの実証評価により、かなりの性能格差が明らかとなった。最高性能のClaude-3-7-Sonnetは平均制約満足度を63.0%、Qwen3-1.7Bのような小型モデルは44.8%に低下する。モデルは明示的な制約でうまく機能するが、暗黙的あるいは抽象的な制約で苦労する。複数の階層的な制約のあるタスクは、モデルの成功率を54.5%から18.8%に大幅に低下させる。しかし、構造化されたフィードバックは進歩的な改善を可能にし、平均的な制約満足度は4回の反復的な改善ラウンドで63.0%から83.4%に上昇する。 MultiCodeIFは、現実的なコード生成シナリオ下でLCMをベンチマークするためのスケーラブルで制約対応で、フィードバックに敏感なフレームワークを提供し、合成評価と実世界の命令複雑性のギャップを埋める。完全なベンチマークデータセット、評価パイプライン、ソースコードはhttps://github.com/SYSUSELab/MultiCodeIFで入手できる。

関連論文リスト

LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文参考訳（メタデータ） (2025-05-21T15:06:59Z)
A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models [48.361839372110246]
本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
論文参考訳（メタデータ） (2025-05-12T14:16:55Z)
CodeFlowBench: A Multi-turn, Iterative Benchmark for Complex Code Generation [22.74831630054096]
コードフローを実行するLLMの能力を総合的に評価するために設計された最初のベンチマークであるCodeFlowBenchを紹介する。 CodeFlowBenchは、Codeforcesから5,258の問題を発生し、自動パイプラインを通じて継続的に更新される。 16のLLMの大規模な実験により、マルチターンシナリオにおける大幅な性能劣化が明らかになった。
論文参考訳（メタデータ） (2025-04-30T15:45:28Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Intention is All You Need: Refining Your Code from Your Intention [19.827036493004435]
本稿では,従来のコメント・ツー・コード・プロセスを強化する意図に基づくコード改善手法を提案する。提案手法は,意図抽出と意図誘導リビジョン生成という2つの重要な段階から構成される。提案手法は,意図抽出において79%の精度を達成し,コードリファインメント生成において最大66%の精度を実現した。
論文参考訳（メタデータ） (2025-02-12T07:26:13Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation [25.344800819245858]
FunCoderは、機能的なコンセンサスに分割と参照の戦略を取り入れたコード生成フレームワークである。 FunCoderは、HumanEval、MBPP、xCodeEval、MATHにおいて、GPT-3.5とGPT-4で、最先端のメソッドを平均で+9.8%上回る。
論文参考訳（メタデータ） (2024-05-30T14:31:33Z)
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文参考訳（メタデータ） (2024-05-18T22:10:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。