論文の概要: GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Model
- arxiv url: http://arxiv.org/abs/2402.02408v2
- Date: Mon, 02 Dec 2024 07:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:28.560370
- Title: GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Model
- Title(参考訳): GLaPE:大規模言語モデルのゴールドラベルに依存しないプロンプト評価と最適化
- Authors: Xuanchang Zhang, Zhuosheng Zhang, Hai Zhao,
- Abstract要約: 我々は,ゴールドラベルへの依存を軽減するため,ゴールドラベルに依存しないプロンプト評価(GLaPE)を提案する。
GLaPEは,ゴールドラベルが存在しない場合でも,精度よく信頼性の高い評価を行う。
一般的な6つの推論タスクにおいて、GLaPEベースのプロンプト最適化により、精度ベースのプロンプトに匹敵する効果的なプロンプトが得られる。
- 参考スコア(独自算出の注目度): 59.495717939664246
- License:
- Abstract: Despite the rapid progress of large language models (LLMs), their task performance remains sensitive to prompt design. Recent studies have explored leveraging the LLM itself as an optimizer to identify optimal prompts that maximize task accuracy. However, when evaluating prompts, such approaches heavily rely on elusive manually annotated gold labels to calculate task accuracy for each candidate prompt, which hinders the widespread implementation and generality. To overcome the limitation, this work proposes a gold label-agnostic prompt evaluation (GLaPE) to alleviate dependence on gold labels. Motivated by the observed correlation between self-consistency and the accuracy of the answer, we adopt self-consistency as the initial evaluation score. Subsequently, we refine the scores of prompts producing identical answers to be mutually consistent. Experimental results show that GLaPE provides reliable evaluations uniform with accuracy, even in the absence of gold labels. Moreover, on six popular reasoning tasks, our GLaPE-based prompt optimization yields effective prompts comparable to accuracy-based ones. The code is publicly available at https://github.com/thunderous77/GLaPE.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩にもかかわらず、そのタスク性能は設計の迅速化に敏感である。
近年の研究では、LLM自体を最適化器として活用し、タスク精度を最大化する最適なプロンプトを特定している。
しかしながら、プロンプトを評価する際には、各プロンプトのタスク精度を計算するために、手動でアノテートした金のラベルに大きく依存している。
本研究は,ゴールドラベルへの依存を軽減するため,ゴールドラベルに依存しないプロンプト評価(GLaPE)を提案する。
自己整合性と解答精度の相関関係から,初期評価スコアとして自己整合性を採用する。
その後、同一回答を生成するプロンプトのスコアを改良し、相互に一貫性を持たせる。
実験結果から,GLaPEは,ゴールドラベルが存在しない場合でも,精度の均一な信頼性評価を提供することがわかった。
さらに、一般的な6つの推論タスクにおいて、GLaPEベースのプロンプト最適化により、精度ベースのプロンプトに匹敵する効果的なプロンプトが得られる。
コードはhttps://github.com/thunderous77/GLaPEで公開されている。
関連論文リスト
- A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization [31.722907135361492]
学習分析(LA)の文脈において、学習者の反応をより深く把握するための強力なツールとして、オープン・エンド・ショート・アンサー・質問(SAG)が広く認識されている。
SAGは、高グレードの作業負荷と一貫性のない評価に関する懸念のために、実際に課題を提示することが多い。
本稿では,大規模言語モデル(LLM)をSAGのグレーダとして活用する統合型マルチエージェントASAGフレームワークであるGradeOptを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:11:24Z) - Integrative Decoding: Improve Factuality via Implicit Self-consistency [45.27124252002816]
自己整合性に基づくアプローチは,大規模言語モデルの現実的精度向上に極めて有効である。
我々は、オープンな生成タスクにおける自己整合性の可能性を解き放つために、統合的復号化(ID)を提案する。
論文 参考訳(メタデータ) (2024-10-02T13:52:55Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Test-Time Personalization with Meta Prompt for Gaze Estimation [23.01057994927244]
自然言語処理(NLP)の最近の進歩からインスピレーションを得て、テスト時間に無数のパラメータ"prompts"を更新する。
我々は、その更新が目標に合致することを確実にするために、プロンプトをメタ学習することを提案する。
実験の結果,メタ学習プロンプトは単純な対称性の損失でも効果的に適応できることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:02:35Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good
movie, and a good prompt too? [84.91689960190054]
大規模言語モデルは、自然言語のプロンプトが与えられた場合、ゼロショットで新しいタスクを実行することができる。
特にプロンプトが自然言語である場合、どの要因がプロンプトを効果的にするかは明らかにされていない。
論文 参考訳(メタデータ) (2022-12-20T18:47:13Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。