Fugu-MT 論文翻訳(概要): PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

論文の概要: PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

arxiv url: http://arxiv.org/abs/2603.10477v1
Date: Wed, 11 Mar 2026 07:00:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:32.818761
Title: PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses
Title（参考訳）: PEEM:プロンプトと応答の解釈可能な共同評価のためのプロンプト工学評価指標
Authors: Minki Hong, Eunsoo Lee, Sohyun Park, Jihie Kim,
Abstract要約: 提案するPEEM(Prompt Engineering Evaluation Metrics)は,プロンプトと応答を統一的に評価するためのフレームワークである。 PEEMは9つの軸を持つ構造化ルーブリックを定義している。3つのプロンプト基準(明瞭さ/構造、言語的品質、公正)と6つの応答基準(正確さ、客観性、妥当性、明確さ、簡潔さ)。
参考スコア（独自算出の注目度）: 5.396994583933599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt design is a primary control interface for large language models (LLMs), yet standard evaluations largely reduce performance to answer correctness, obscuring why a prompt succeeds or fails and providing little actionable guidance. We propose PEEM (Prompt Engineering Evaluation Metrics), a unified framework for joint and interpretable evaluation of both prompts and responses. PEEM defines a structured rubric with 9 axes: 3 prompt criteria (clarity/structure, linguistic quality, fairness) and 6 response criteria (accuracy, coherence, relevance, objectivity, clarity, conciseness), and uses an LLM-based evaluator to output (i) scalar scores on a 1-5 Likert scale and (ii) criterion-specific natural-language rationales grounded in the rubric. Across 7 benchmarks and 5 task models, PEEM's accuracy axis strongly aligns with conventional accuracy while preserving model rankings (aggregate Spearman rho about 0.97, Pearson r about 0.94, p < 0.001). A multi-evaluator study with four models shows consistent relative judgments (pairwise rho = 0.68-0.85), supporting evaluator-agnostic deployment. Beyond alignment, PEEM captures complementary linguistic failure modes and remains informative under prompt perturbations: prompt-quality trends track downstream accuracy under iterative rewrites, semantic adversarial manipulations induce clear score degradation, and meaning-preserving paraphrases yield high stability (robustness rate about 76.7-80.6%). Finally, using only PEEM scores and rationales as feedback, a zero-shot prompt rewriting loop improves downstream accuracy by up to 11.7 points, outperforming supervised and RL-based prompt-optimization baselines. Overall, PEEM provides a reproducible, criterion-driven protocol that links prompt formulation to response behavior and enables systematic diagnosis and optimization of LLM interactions.
Abstract（参考訳）: プロンプト設計は大規模言語モデル(LLM)の主要な制御インタフェースであるが、標準的な評価は性能を大幅に低下させ、なぜプロンプトが成功するか、失敗するかを判断し、実行可能なガイダンスをほとんど提供しない。提案するPEEM(Prompt Engineering Evaluation Metrics)は,プロンプトと応答の統一的評価フレームワークである。 PEEMは9つの軸を持つ構造化ルーブリックを定義している。3つのプロンプト基準(明瞭さ/構造、言語的品質、公平さ)と6つの応答基準(正確さ、コヒーレンス、妥当性、客観性、明確さ、簡潔さ)であり、LLMベースの評価器を用いて出力する。 (i)1-5Likertスケールのスカラースコアと (二格言固有の自然語理理性 7つのベンチマークと5つのタスクモデルにまたがって、PEEMの精度軸はモデルランキングを維持しながら従来の精度と強く一致している(Pearson r は 0.97、Pearson r は 0.94、p < 0.001)。 4つのモデルを用いたマルチ評価器の研究は、一貫した相対的判断(pairwise rho = 0.68-0.85)を示し、評価器に依存しない展開をサポートする。アライメントの他に、PEEMは相補的な言語障害モードを捉え、迅速な摂動の下では情報的であり、即時的な傾向は反復的な書き直しの下で下流の精度を追跡する、セマンティック・逆行操作は明確なスコアの劣化を引き起こす、意味保存のパラフレーズは高い安定性をもたらす(ロバストネス率は76.7-80.6%)。最後に、PEEMスコアと合理性のみをフィードバックとして使用することにより、ゼロショットプロンプト書き換えループは、下流の精度を最大11.7ポイント向上し、教師付きおよびRLベースのプロンプト最適化ベースラインを向上する。全体として、PEEMは再現可能で基準駆動のプロトコルを提供し、迅速な定式化と応答挙動をリンクし、LLM相互作用の体系的な診断と最適化を可能にする。

関連論文リスト

RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文参考訳（メタデータ） (2025-11-27T07:20:52Z)
Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文参考訳（メタデータ） (2025-11-25T20:37:59Z)
Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise [41.16092952642748]
本研究では,Large Language Models (LLMs) で使用されているれんがを精製することにより,AES(Automated Scoring)を向上する可能性について検討する。 GPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-Instructによるデータセットの実験では、最大0.19と0.47の改善が得られた。
論文参考訳（メタデータ） (2025-10-10T06:05:38Z)
Re-FRAME the Meeting Summarization SCOPE: Fact-Based Summarization and Personalization via Questions [9.381476258394175]
本稿では,要約をセマンティックエンリッチメントタスクとして再構成するモジュールパイプラインFRAMEを紹介する。 FRAMEは健全な事実を抽出し、それらを主題的に整理し、それらを抽象的な要約にまとめる。要約をパーソナライズするために、コンテンツ選択の前に9つの質問に答えることにより、推論トレースをモデルに構築する、推論アウトルードプロトコルであるSCOPEを導入する。
論文参考訳（メタデータ） (2025-09-19T11:58:17Z)
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
ReliableEval: A Recipe for Stochastic LLM Evaluation via Method of Moments [23.514446188485838]
本稿では,意味保存型摂動空間におけるモーメント評価手法について論じる。 GPT-4oやClaude-3.7-Sonnetのようなトップパフォーマンスモデルでさえ、かなりの迅速な感度を示す。
論文参考訳（メタデータ） (2025-05-28T09:40:48Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。