論文の概要: Structured Prompting Enables More Robust, Holistic Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2511.20836v1
- Date: Tue, 25 Nov 2025 20:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.851984
- Title: Structured Prompting Enables More Robust, Holistic Evaluation of Language Models
- Title(参考訳): Structured Promptingは、言語モデルのよりロバストで全体論的評価を可能にする
- Authors: Asad Aali, Muhammad Ahmed Mohsin, Vasiliki Bikia, Arnav Singhvi, Richard Gaus, Suhana Bedi, Hejie Cui, Miguel Fuentes, Alyssa Unell, Yifan Mai, Jordan Cahoon, Michael Pfeffer, Roxana Daneshjou, Sanmi Koyejo, Emily Alsentzer, Percy Liang, Christopher Potts, Nigam H. Shah, Akshay S. Chaudhari,
- Abstract要約: 言語モデル(LM)は、ドメイン間でますます採用されている。
パフォーマンスを正確に見積もる高品質なベンチマークフレームワークは、デプロイメント決定を導く上で不可欠です。
本稿では,構造化プロンプト手法を導入した DSPy+HELM フレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.93860306068057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models (LMs) are increasingly adopted across domains, high-quality benchmarking frameworks that accurately estimate performance are essential for guiding deployment decisions. While frameworks such as Holistic Evaluation of Language Models (HELM) enable broad evaluation across tasks, they often rely on fixed prompts that fail to generalize across LMs, yielding unrepresentative performance estimates. Unless we estimate each LM's ceiling (maximum achievable via changes to the prompt), we risk underestimating performance. Declarative prompting frameworks, such as DSPy, offer a scalable alternative to manual prompt engineering by crafting structured prompts that can be optimized per task. However, such frameworks have not been systematically evaluated across established benchmarks. We present a reproducible DSPy+HELM framework that introduces structured prompting methods which elicit reasoning, enabling more accurate LM benchmarking. Using four prompting methods, we evaluate four frontier LMs across seven benchmarks (general/medical domain) against existing HELM baseline scores. We find that without structured prompting: (i) HELM underestimates LM performance (by 4% average), (ii) performance estimates vary more across benchmarks (+2% standard deviation), (iii) performance gaps are misrepresented (leaderboard rankings flip on 3/7 benchmarks), and (iv) introducing reasoning (chain-of-thought) reduces LM sensitivity to prompt design (smaller Δ across prompts). To our knowledge, this is the first large-scale benchmarking study to empirically characterize LM behavior across benchmarks and prompting methods, showing that scalable performance ceiling estimation enables more decision-useful benchmarks. We open-source (i) DSPy+HELM Integration (https://github.com/stanford-crfm/helm/pull/3893) and (ii) Prompt Optimization Pipeline (https://github.com/StanfordMIMI/dspy-helm).
- Abstract(参考訳): 言語モデル(LM)がドメインにまたがって採用されるにつれて、パフォーマンスを正確に見積もる高品質なベンチマークフレームワークは、デプロイメントの決定を導く上で不可欠である。
Holistic Evaluation of Language Models (HELM) のようなフレームワークはタスク間で幅広い評価を可能にするが、彼らはしばしばLM全体にわたって一般化できない固定的なプロンプトに依存し、非表現的なパフォーマンス推定をもたらす。
各LMの天井(プロンプトの変更によって達成可能な最大値)を推定しなければ、性能を過小評価するリスクがある。
DSPyのような宣言的プロンプトフレームワークは、タスクごとに最適化可能な構造化プロンプトを作成することで、手動プロンプトエンジニアリングに代わるスケーラブルな代替手段を提供する。
しかし、そのようなフレームワークは確立されたベンチマークで体系的に評価されていない。
本稿では、より正確なLMベンチマークを可能にする構造的プロンプト手法を導入し、再現可能なDSPy+HELMフレームワークを提案する。
4つのプロンプト法を用いて,既存のHELMベースラインスコアに対して,7つのベンチマーク(一般/医療領域)にまたがる4つのフロンティアLMを評価する。
私たちは、構造化されたプロンプトなしでそれを見つける。
(i)HELMはLM性能を過小評価する(平均4%)
(ii) 性能評価はベンチマークによって異なる(+2%標準偏差)。
(3)性能差を誤記する(3/7ベンチマークでランキングが反転する)。
(4)推論(チェーン・オブ・シント)の導入により,設計の促進にLM感度が低下する(プロンプト間のΔが小さくなる)。
我々の知る限り、これはベンチマークとプロンプトメソッドでLMの挙動を実証的に特徴づける最初の大規模ベンチマーク研究であり、スケーラブルなパフォーマンス天井推定によりより意思決定に使えるベンチマークが可能になることを示している。
私たちはオープンソースです
(i)DSPy+HELM統合(https://github.com/stanford-crfm/helm/pull/3893)
(ii) Prompt Optimization Pipeline (https://github.com/StanfordMIMI/dspy-helm)。
関連論文リスト
- Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - Re-Evaluating Code LLM Benchmarks Under Semantic Mutation [8.58692613099365]
本稿では,コードベンチマークの迅速感度を調査するための実証的研究について述べる。
本稿では,プロンプトテンプレートのセマンティクスと構造を両立させる手法として,プロンプトテンプレートを改良する汎用フレームワークを提案する。
この結果から, 急激な変化であっても, 性能が著しく変化することが示唆された。
論文 参考訳(メタデータ) (2025-06-20T15:30:36Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Efficient multi-prompt evaluation of LLMs [36.46258631685666]
PromptEvalは,多数のプロンプトに対して性能を推定する手法である。
PromptEvalは一貫して性能分布を推定し,その有効性を実証的に証明する。
本稿では,LLM-as-a-judgeにおいてPromptEvalが有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T14:24:47Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。