論文の概要: When "Better" Prompts Hurt: Evaluation-Driven Iteration for LLM Applications
- arxiv url: http://arxiv.org/abs/2601.22025v1
- Date: Thu, 29 Jan 2026 17:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.043413
- Title: When "Better" Prompts Hurt: Evaluation-Driven Iteration for LLM Applications
- Title(参考訳): How "Better" Prompts Hurt: LLMアプリケーションの評価駆動イテレーション
- Authors: Daniel Commey,
- Abstract要約: 大規模言語モデル(LLM)アプリケーションの評価は、アウトプットが高次元で、プロンプトやモデルの変更に敏感であるため、従来のソフトウェアテストとは異なる。
評価駆動型ワークフロー – Define, Test, Diagnose, Fix – を紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Large Language Model (LLM) applications differs from traditional software testing because outputs are stochastic, high-dimensional, and sensitive to prompt and model changes. We present an evaluation-driven workflow - Define, Test, Diagnose, Fix - that turns these challenges into a repeatable engineering loop. We introduce the Minimum Viable Evaluation Suite (MVES), a tiered set of recommended evaluation components for (i) general LLM applications, (ii) retrieval-augmented generation (RAG), and (iii) agentic tool-use workflows. We also synthesize common evaluation methods (automated checks, human rubrics, and LLM-as-judge) and discuss known judge failure modes. In reproducible local experiments (Ollama; Llama 3 8B Instruct and Qwen 2.5 7B Instruct), we observe that a generic "improved" prompt template can trade off behaviors: on our small structured suites, extraction pass rate decreased from 100% to 90% and RAG compliance from 93.3% to 80% for Llama 3 when replacing task-specific prompts with generic rules, while instruction-following improved. These findings motivate evaluation-driven prompt iteration and careful claim calibration rather than universal prompt recipes. All test suites, harnesses, and results are included for reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)アプリケーションの評価は、出力が確率的で、高次元で、プロンプトやモデルの変更に敏感であるため、従来のソフトウェアテストとは異なる。
評価駆動型ワークフロー – Define, Test, Diagnose, Fix – を紹介します。
我々は,推奨評価コンポーネントの連結セットである最小生存評価スイート(MVES)を紹介した。
(i) LLM の一般応用
(II)検索増強世代(RAG)及び
(iii)エージェントツール使用ワークフロー。
また、一般的な評価手法(自動チェック、人ごみ、LSM-as-judge)を合成し、既知の判定失敗モードについて議論する。
再現可能な局所実験 (Ollama, Llama 3 8B Instruct and Qwen 2.5 7B Instruct) において, 汎用的なプロンプトテンプレートは, 小さな構成のスイートでは, 抽出パスレートが100%から90%, RAG準拠率が93.3%から80%に低下し, タスク固有のプロンプトをジェネリックルールに置き換える一方で, 命令フォローが改善された。
これらの知見は、普遍的なプロンプトレシピではなく、評価駆動のプロンプトイテレーションと慎重なクレームキャリブレーションを動機付けている。
すべてのテストスイート、ハーネス、結果は再現性のために含まれます。
関連論文リスト
- Enhancing LLM Instruction Following: An Evaluation-Driven Multi-Agentic Workflow for Prompt Instructions Optimization [2.9203730377983654]
大規模言語モデル(LLM)は、しばしば実質的な関連性のあるコンテンツを生成するが、形式的な制約に従わない。
本稿では,その制約からタスク記述の最適化を分離する,新しいマルチエージェントワークフローを提案する。
論文 参考訳(メタデータ) (2026-01-06T19:02:14Z) - LLMCFG-TGen: Using LLM-Generated Control Flow Graphs to Automatically Create Test Cases from Use Cases [11.173694789846435]
適切なテストケース生成は、ソフトウェアテストにおいて重要である。
ユースケース記述は、機能的振る舞いと相互作用フローを構造化形式でキャプチャする一般的な方法である。
NLのユースケース記述からテストケースを自動的に生成する手法を提案する。
論文 参考訳(メタデータ) (2025-12-06T11:19:37Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - xFinder: Large Language Models as Automated Evaluators for Reliable Evaluation [9.22621553566816]
本稿では,キー応答抽出モジュールの最適化により抽出精度が向上し,信頼性が向上することを示す。
大規模言語モデル(LLM)評価において,応答抽出とマッチングのための新しい評価器であるxFinderを提案する。
一般化テストと実世界の評価では、最小のxFinderモデルは5億のパラメータしか持たないが、平均抽出精度は93.42%である。
xFinderの最終判定精度は97.61%に達し、既存の評価フレームワークや審査モデルを上回っている。
論文 参考訳(メタデータ) (2024-05-20T08:30:13Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。