論文の概要: When "Better" Prompts Hurt: Evaluation-Driven Iteration for LLM Applications
- arxiv url: http://arxiv.org/abs/2601.22025v1
- Date: Thu, 29 Jan 2026 17:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.043413
- Title: When "Better" Prompts Hurt: Evaluation-Driven Iteration for LLM Applications
- Title(参考訳): How "Better" Prompts Hurt: LLMアプリケーションの評価駆動イテレーション
- Authors: Daniel Commey,
- Abstract要約: 大規模言語モデル(LLM)アプリケーションの評価は、アウトプットが高次元で、プロンプトやモデルの変更に敏感であるため、従来のソフトウェアテストとは異なる。
評価駆動型ワークフロー – Define, Test, Diagnose, Fix – を紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Large Language Model (LLM) applications differs from traditional software testing because outputs are stochastic, high-dimensional, and sensitive to prompt and model changes. We present an evaluation-driven workflow - Define, Test, Diagnose, Fix - that turns these challenges into a repeatable engineering loop. We introduce the Minimum Viable Evaluation Suite (MVES), a tiered set of recommended evaluation components for (i) general LLM applications, (ii) retrieval-augmented generation (RAG), and (iii) agentic tool-use workflows. We also synthesize common evaluation methods (automated checks, human rubrics, and LLM-as-judge) and discuss known judge failure modes. In reproducible local experiments (Ollama; Llama 3 8B Instruct and Qwen 2.5 7B Instruct), we observe that a generic "improved" prompt template can trade off behaviors: on our small structured suites, extraction pass rate decreased from 100% to 90% and RAG compliance from 93.3% to 80% for Llama 3 when replacing task-specific prompts with generic rules, while instruction-following improved. These findings motivate evaluation-driven prompt iteration and careful claim calibration rather than universal prompt recipes. All test suites, harnesses, and results are included for reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)アプリケーションの評価は、出力が確率的で、高次元で、プロンプトやモデルの変更に敏感であるため、従来のソフトウェアテストとは異なる。
評価駆動型ワークフロー – Define, Test, Diagnose, Fix – を紹介します。
我々は,推奨評価コンポーネントの連結セットである最小生存評価スイート(MVES)を紹介した。
(i) LLM の一般応用
(II)検索増強世代(RAG)及び
(iii)エージェントツール使用ワークフロー。
また、一般的な評価手法(自動チェック、人ごみ、LSM-as-judge)を合成し、既知の判定失敗モードについて議論する。
再現可能な局所実験 (Ollama, Llama 3 8B Instruct and Qwen 2.5 7B Instruct) において, 汎用的なプロンプトテンプレートは, 小さな構成のスイートでは, 抽出パスレートが100%から90%, RAG準拠率が93.3%から80%に低下し, タスク固有のプロンプトをジェネリックルールに置き換える一方で, 命令フォローが改善された。
これらの知見は、普遍的なプロンプトレシピではなく、評価駆動のプロンプトイテレーションと慎重なクレームキャリブレーションを動機付けている。
すべてのテストスイート、ハーネス、結果は再現性のために含まれます。
関連論文リスト
- LLMCFG-TGen: Using LLM-Generated Control Flow Graphs to Automatically Create Test Cases from Use Cases [11.173694789846435]
適切なテストケース生成は、ソフトウェアテストにおいて重要である。
ユースケース記述は、機能的振る舞いと相互作用フローを構造化形式でキャプチャする一般的な方法である。
NLのユースケース記述からテストケースを自動的に生成する手法を提案する。
論文 参考訳(メタデータ) (2025-12-06T11:19:37Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。