論文の概要: GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Model
- arxiv url: http://arxiv.org/abs/2402.02408v2
- Date: Mon, 02 Dec 2024 07:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 21:01:15.453661
- Title: GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Model
- Title(参考訳): GLaPE:大規模言語モデルのゴールドラベルに依存しないプロンプト評価と最適化
- Authors: Xuanchang Zhang, Zhuosheng Zhang, Hai Zhao,
- Abstract要約: 我々は,ゴールドラベルへの依存を軽減するため,ゴールドラベルに依存しないプロンプト評価(GLaPE)を提案する。
GLaPEは,ゴールドラベルが存在しない場合でも,精度よく信頼性の高い評価を行う。
一般的な6つの推論タスクにおいて、GLaPEベースのプロンプト最適化により、精度ベースのプロンプトに匹敵する効果的なプロンプトが得られる。
- 参考スコア(独自算出の注目度): 59.495717939664246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid progress of large language models (LLMs), their task performance remains sensitive to prompt design. Recent studies have explored leveraging the LLM itself as an optimizer to identify optimal prompts that maximize task accuracy. However, when evaluating prompts, such approaches heavily rely on elusive manually annotated gold labels to calculate task accuracy for each candidate prompt, which hinders the widespread implementation and generality. To overcome the limitation, this work proposes a gold label-agnostic prompt evaluation (GLaPE) to alleviate dependence on gold labels. Motivated by the observed correlation between self-consistency and the accuracy of the answer, we adopt self-consistency as the initial evaluation score. Subsequently, we refine the scores of prompts producing identical answers to be mutually consistent. Experimental results show that GLaPE provides reliable evaluations uniform with accuracy, even in the absence of gold labels. Moreover, on six popular reasoning tasks, our GLaPE-based prompt optimization yields effective prompts comparable to accuracy-based ones. The code is publicly available at https://github.com/thunderous77/GLaPE.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩にもかかわらず、そのタスク性能は設計の迅速化に敏感である。
近年の研究では、LLM自体を最適化器として活用し、タスク精度を最大化する最適なプロンプトを特定している。
しかしながら、プロンプトを評価する際には、各プロンプトのタスク精度を計算するために、手動でアノテートした金のラベルに大きく依存している。
本研究は,ゴールドラベルへの依存を軽減するため,ゴールドラベルに依存しないプロンプト評価(GLaPE)を提案する。
自己整合性と解答精度の相関関係から,初期評価スコアとして自己整合性を採用する。
その後、同一回答を生成するプロンプトのスコアを改良し、相互に一貫性を持たせる。
実験結果から,GLaPEは,ゴールドラベルが存在しない場合でも,精度の均一な信頼性評価を提供することがわかった。
さらに、一般的な6つの推論タスクにおいて、GLaPEベースのプロンプト最適化により、精度ベースのプロンプトに匹敵する効果的なプロンプトが得られる。
コードはhttps://github.com/thunderous77/GLaPEで公開されている。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput [21.59519440154879]
結果報酬モデル(ORM)が,速度のトレーディング精度を通じて検証をスケールする上で重要な役割を担っていることを示す。
生成-帰属-ランクのアプローチを分析し、不正だが高いランクの解をフィルタリングすることで機能することを示す。
論文 参考訳(メタデータ) (2025-06-11T17:58:21Z) - ReliableEval: A Recipe for Stochastic LLM Evaluation via Method of Moments [21.37415398600286]
本稿では,意味保存型摂動空間におけるモーメント評価手法について論じる。
GPT-4oやClaude-3.7-Sonnetのようなトップパフォーマンスモデルでさえ、かなりの迅速な感度を示す。
論文 参考訳(メタデータ) (2025-05-28T09:40:48Z) - Search-Based Correction of Reasoning Chains for Language Models [72.61861891295302]
CoT(Chain-of-Thought)推論は言語モデル(LM)の機能と透明性を向上した。
我々はCoTにおける各推論ステップを、その正確性を示す潜在変数で拡張する新しい自己補正フレームワークを導入する。
また,離散探索アルゴリズムであるサーチコレクタも導入した。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization [31.722907135361492]
学習分析(LA)の文脈において、学習者の反応をより深く把握するための強力なツールとして、オープン・エンド・ショート・アンサー・質問(SAG)が広く認識されている。
SAGは、高グレードの作業負荷と一貫性のない評価に関する懸念のために、実際に課題を提示することが多い。
本稿では,大規模言語モデル(LLM)をSAGのグレーダとして活用する統合型マルチエージェントASAGフレームワークであるGradeOptを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:11:24Z) - Integrative Decoding: Improve Factuality via Implicit Self-consistency [45.27124252002816]
自己整合性に基づくアプローチは,大規模言語モデルの現実的精度向上に極めて有効である。
我々は、オープンな生成タスクにおける自己整合性の可能性を解き放つために、統合的復号化(ID)を提案する。
論文 参考訳(メタデータ) (2024-10-02T13:52:55Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Test-Time Personalization with Meta Prompt for Gaze Estimation [23.01057994927244]
自然言語処理(NLP)の最近の進歩からインスピレーションを得て、テスト時間に無数のパラメータ"prompts"を更新する。
我々は、その更新が目標に合致することを確実にするために、プロンプトをメタ学習することを提案する。
実験の結果,メタ学習プロンプトは単純な対称性の損失でも効果的に適応できることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:02:35Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good
movie, and a good prompt too? [84.91689960190054]
大規模言語モデルは、自然言語のプロンプトが与えられた場合、ゼロショットで新しいタスクを実行することができる。
特にプロンプトが自然言語である場合、どの要因がプロンプトを効果的にするかは明らかにされていない。
論文 参考訳(メタデータ) (2022-12-20T18:47:13Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。