論文の概要: Interactive Evaluation of Large Language Models for Multi-Requirement Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2508.18905v1
- Date: Tue, 26 Aug 2025 10:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.802552
- Title: Interactive Evaluation of Large Language Models for Multi-Requirement Software Engineering Tasks
- Title(参考訳): マルチ要求ソフトウェアエンジニアリングタスクのための大規模言語モデルの対話的評価
- Authors: Dimitrios Rontogiannis, Maxime Peyrard, Nicolas Baldwin, Martin Josifoski, Robert West, Dimitrios Gunopulos,
- Abstract要約: 55のプログラミングタスクのベンチマークであるDevAIの上に構築し、基礎的真実のソリューションを追加し、インタビュアーヒントの妥当性と有用性を評価する。
本研究は,協調型コード生成エージェントの開発における動的評価の重要性を強調した。
- 参考スコア(独自算出の注目度): 15.072898489107887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard single-turn, static benchmarks fall short in evaluating the nuanced capabilities of Large Language Models (LLMs) on complex tasks such as software engineering. In this work, we propose a novel interactive evaluation framework that assesses LLMs on multi-requirement programming tasks through structured, feedback-driven dialogue. Each task is modeled as a requirement dependency graph, and an ``interviewer'' LLM, aware of the ground-truth solution, provides minimal, targeted hints to an ``interviewee'' model to help correct errors and fulfill target constraints. This dynamic protocol enables fine-grained diagnostic insights into model behavior, uncovering strengths and systematic weaknesses that static benchmarks fail to measure. We build on DevAI, a benchmark of 55 curated programming tasks, by adding ground-truth solutions and evaluating the relevance and utility of interviewer hints through expert annotation. Our results highlight the importance of dynamic evaluation in advancing the development of collaborative code-generating agents.
- Abstract(参考訳): 標準のシングルターン静的ベンチマークは、ソフトウェア工学のような複雑なタスクにおいて、LLM(Large Language Models)のニュアンスド機能を評価するのに不足している。
本研究では,構造化されたフィードバック駆動対話によるマルチ要求プログラミングタスクにおけるLLMの評価を行う対話型評価フレームワークを提案する。
それぞれのタスクは要件依存グラフとしてモデル化され、"`interviewer'' LLM"は、基盤構造に気付いており、"`interviewee''モデルの最小限のヒントを提供し、エラーの修正とターゲットの制約を満たすのに役立ちます。
この動的プロトコルは、モデル動作の詳細な診断洞察を可能にし、静的ベンチマークが測定できない強度と系統的な弱点を明らかにする。
我々は、55のキュレートされたプログラミングタスクのベンチマークであるDevAIの上に構築し、基礎的な厳密なソリューションを追加し、専門家アノテーションによるインタビュアーヒントの妥当性と有用性を評価する。
本研究は,協調型コード生成エージェントの開発における動的評価の重要性を強調した。
関連論文リスト
- Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs [21.192619293355502]
大きな言語モデル(LLM)は、明確で完全なステートメントで問題を解決するのに優れています。
このベンチマークは、複雑でインタラクティブなシナリオを扱う上で、現在のLLMの長所と短所に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-13T19:14:45Z) - CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [12.465309397733249]
大規模言語モデル(LLM)は様々なソフトウェア工学領域で広く採用されている。
これらのアプリケーションは、表面レベルのコードパターン以上の理解を必要とします。
既存のベンチマークは、コードが正しく修正されるか、生成されたかといったエンドツーエンドの結果を主に評価する。
論文 参考訳(メタデータ) (2025-07-03T01:35:58Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。