論文の概要: Optimization before Evaluation: Evaluation with Unoptimised Prompts Can be Misleading
- arxiv url: http://arxiv.org/abs/2604.27637v1
- Date: Thu, 30 Apr 2026 09:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.02045
- Title: Optimization before Evaluation: Evaluation with Unoptimised Prompts Can be Misleading
- Title(参考訳): 評価前の最適化:最適化されていないプロンプトによる評価は誤解を招く可能性がある
- Authors: Nicholas Sadjoli, Tim Siefken, Atin Ghosh, Yifan Mai, Daniel Dahlmeier,
- Abstract要約: これは、アプリケーションパフォーマンスを最大化するために各モデルのプロンプトを最適化するためにプロンプト最適化(PO)技術を使用する一般的な業界プラクティスとは異なる。
公開学術および内部業界ベンチマークの結果から,POがモデルの最終ランキングに大きく影響していることが分かる。
これは、与えられたタスクに最適なモデルを選択するために評価を行うときに、モデルごとにPOを実行する実践者の重要性を強調します。
- 参考スコア(独自算出の注目度): 1.8865308068125637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Large Language Model (LLM) evaluation frameworks utilize the same static prompt template across all models under evaluation. This differs from the common industry practice of using prompt optimization (PO) techniques to optimize the prompt for each model to maximize application performance. In this paper, we investigate the effect of PO towards LLM evaluations. Our results on public academic and internal industry benchmarks show that PO greatly affects the final ranking of models. This highlights the importance of practitioners performing PO per model when conducting evaluations to choose the best model for a given task.
- Abstract(参考訳): 現在のLarge Language Model (LLM) 評価フレームワークは、評価中のすべてのモデルで同じ静的プロンプトテンプレートを使用する。
これは、アプリケーションパフォーマンスを最大化するために各モデルのプロンプトを最適化するためにプロンプト最適化(PO)技術を使用する一般的な業界プラクティスとは異なる。
本稿では,LLM評価に対するPOの影響について検討する。
公開学術および内部業界ベンチマークの結果から,POがモデルの最終ランキングに大きく影響していることが分かる。
これは、与えられたタスクに最適なモデルを選択するために評価を行うときに、モデルごとにPOを実行する実践者の重要性を強調します。
関連論文リスト
- A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。
人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。
対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文 参考訳(メタデータ) (2025-01-07T03:14:39Z) - Direct Judgement Preference Optimization [79.54459973726405]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。
我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:03:49Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - What is the best model? Application-driven Evaluation for Large Language Models [7.054112690519648]
A-Evalは、一般的な大規模言語モデルのアプリケーション駆動評価ベンチマークである。
我々は,678組の質問・回答ペアからなるデータセットを,アノテート・アノテート・レビューのプロセスを通じて構築する。
モデルスケールと課題難易度に関する興味深い法則を明らかにし、最適なモデルを選択するための実現可能な方法を提案する。
論文 参考訳(メタデータ) (2024-06-14T04:52:15Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。