論文の概要: Improving Probability-based Prompt Selection Through Unified Evaluation
and Analysis
- arxiv url: http://arxiv.org/abs/2305.14877v2
- Date: Fri, 8 Mar 2024 18:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 23:34:11.231018
- Title: Improving Probability-based Prompt Selection Through Unified Evaluation
and Analysis
- Title(参考訳): 統一評価と分析による確率に基づくプロンプト選択の改善
- Authors: Sohee Yang, Jonghyeon Kim, Joel Jang, Seonghyeon Ye, Hyunji Lee,
Minjoon Seo
- Abstract要約: 本稿では,既存の確率ベースプロンプト選択手法を解釈し,評価する統合フレームワークを提案する。
既存の手法は入力と予測出力(MI)の相互情報を最大化する手法の変種と解釈できることがわかった。
そこで本研究では,既存の手法であるCBM(Marginalization)と呼ばれる新しい校正手法を提案し,最良の方法の迅速な選択効率を96.85%に向上させるとともに,校正を行なわない託宣F1の99.44%を達成している。
- 参考スコア(独自算出の注目度): 52.04932081106623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works in prompt engineering for large language models have
introduced different gradient-free probability-based prompt selection methods
that aim to choose the optimal prompt among the candidates for a given task but
have failed to provide a comprehensive and fair comparison between each other.
In this paper, we propose a unified framework to interpret and evaluate the
existing probability-based prompt selection methods by performing extensive
experiments on 13 common and diverse NLP tasks. We find that each of the
existing methods can be interpreted as some variant of the method that
maximizes mutual information between the input and the predicted output (MI).
Utilizing this finding, we develop several other combinatorial variants of MI
and increase the effectiveness of the oracle prompt selection method from
87.79% to 94.98%, measured as the ratio of the performance of the selected
prompt to that of the optimal oracle prompt. Furthermore, considering that all
the methods rely on the output probability distribution of the model that might
be biased, we propose a novel calibration method called Calibration by
Marginalization (CBM) that is orthogonal to the existing methods and helps
increase the prompt selection effectiveness of the best method to 96.85%,
achieving 99.44% of the oracle prompt F1 without calibration.
- Abstract(参考訳): 大規模言語モデルのプロンプト工学における従来の研究は、与えられたタスクの候補の中から最適なプロンプトを選択することを目的とした異なる勾配のない確率ベースのプロンプト選択手法を導入してきたが、相互に包括的で公正な比較を提供しられなかった。
本稿では,13個の共通タスクと多種多様なnlpタスクを対象とした広範囲な実験を行い,既存の確率に基づくプロンプト選択法を解釈・評価するための統一フレームワークを提案する。
その結果,既存の手法は入力と予測出力(MI)の相互情報を最大化する手法の変種と解釈できることがわかった。
本研究は,MIの他の組合せ変種を開発し,選択したプロンプトと最適なオラクルプロンプトの比率として,87.79%から94.98%のオラクルプロンプト選択法の有効性を高めた。
さらに,全ての手法がバイアスを受ける可能性のあるモデルの出力確率分布に依存していることを考慮し,既存の手法と直交するキャリブレーションによるキャリブレーション法(CBM)を提案し,最適手法の迅速な選択効率を96.85%向上させ,キャリブレーションを伴わないオラクルプロンプトF1の99.44%を達成した。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Be Aware of the Neighborhood Effect: Modeling Selection Bias under Interference [50.95521705711802]
従来の研究では、予測モデルの偏りのない学習を実現するために、選択バイアスに対処することに注力してきた。
本稿では、因果推論の観点から、近隣効果を干渉問題として公式に定式化する。
本稿では,近隣効果の存在下で選択バイアスに対処できる新しい理想的損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:20:41Z) - A multi-criteria approach for selecting an explanation from the set of counterfactuals produced by an ensemble of explainers [4.239829789304117]
そこで本研究では,マルチ基準解析に基づいて単一対実数を選択するマルチステージアンサンブル手法を提案する。
提案手法は、検討された品質指標の魅力的な妥協値を持つ、完全に実行可能な対策を生成できる。
論文 参考訳(メタデータ) (2024-03-20T19:25:11Z) - Exploring Lottery Prompts for Pre-trained Language Models [46.66885465183664]
インスタンスレベルのプロンプトとその一般化可能性について検討する。
いずれの場合も、ほとんどの場合、PLMから正しい予測を誘導する宝くじプロンプトがある。
一部の強力な宝くじプロンプトは、トレーニングセット全体に対して高いパフォーマンスを持つ。
論文 参考訳(メタデータ) (2023-05-31T02:17:04Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Lookahead and Hybrid Sample Allocation Procedures for Multiple Attribute
Selection Decisions [0.9137554315375922]
本稿では、各測定値が1つの属性の1つのサンプルを1つの代替として生成する設定について考察する。
収集するサンプルが一定数与えられた場合、決定者は、どのサンプルを取得するかを決定し、測定を行い、属性の規模に関する事前の信念を更新し、代替案を選択する必要がある。
論文 参考訳(メタデータ) (2020-07-31T15:04:49Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。