論文の概要: Improving Probability-based Prompt Selection Through Unified Evaluation
and Analysis
- arxiv url: http://arxiv.org/abs/2305.14877v2
- Date: Fri, 8 Mar 2024 18:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 23:34:11.231018
- Title: Improving Probability-based Prompt Selection Through Unified Evaluation
and Analysis
- Title(参考訳): 統一評価と分析による確率に基づくプロンプト選択の改善
- Authors: Sohee Yang, Jonghyeon Kim, Joel Jang, Seonghyeon Ye, Hyunji Lee,
Minjoon Seo
- Abstract要約: 本稿では,既存の確率ベースプロンプト選択手法を解釈し,評価する統合フレームワークを提案する。
既存の手法は入力と予測出力(MI)の相互情報を最大化する手法の変種と解釈できることがわかった。
そこで本研究では,既存の手法であるCBM(Marginalization)と呼ばれる新しい校正手法を提案し,最良の方法の迅速な選択効率を96.85%に向上させるとともに,校正を行なわない託宣F1の99.44%を達成している。
- 参考スコア(独自算出の注目度): 52.04932081106623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works in prompt engineering for large language models have
introduced different gradient-free probability-based prompt selection methods
that aim to choose the optimal prompt among the candidates for a given task but
have failed to provide a comprehensive and fair comparison between each other.
In this paper, we propose a unified framework to interpret and evaluate the
existing probability-based prompt selection methods by performing extensive
experiments on 13 common and diverse NLP tasks. We find that each of the
existing methods can be interpreted as some variant of the method that
maximizes mutual information between the input and the predicted output (MI).
Utilizing this finding, we develop several other combinatorial variants of MI
and increase the effectiveness of the oracle prompt selection method from
87.79% to 94.98%, measured as the ratio of the performance of the selected
prompt to that of the optimal oracle prompt. Furthermore, considering that all
the methods rely on the output probability distribution of the model that might
be biased, we propose a novel calibration method called Calibration by
Marginalization (CBM) that is orthogonal to the existing methods and helps
increase the prompt selection effectiveness of the best method to 96.85%,
achieving 99.44% of the oracle prompt F1 without calibration.
- Abstract(参考訳): 大規模言語モデルのプロンプト工学における従来の研究は、与えられたタスクの候補の中から最適なプロンプトを選択することを目的とした異なる勾配のない確率ベースのプロンプト選択手法を導入してきたが、相互に包括的で公正な比較を提供しられなかった。
本稿では,13個の共通タスクと多種多様なnlpタスクを対象とした広範囲な実験を行い,既存の確率に基づくプロンプト選択法を解釈・評価するための統一フレームワークを提案する。
その結果,既存の手法は入力と予測出力(MI)の相互情報を最大化する手法の変種と解釈できることがわかった。
本研究は,MIの他の組合せ変種を開発し,選択したプロンプトと最適なオラクルプロンプトの比率として,87.79%から94.98%のオラクルプロンプト選択法の有効性を高めた。
さらに,全ての手法がバイアスを受ける可能性のあるモデルの出力確率分布に依存していることを考慮し,既存の手法と直交するキャリブレーションによるキャリブレーション法(CBM)を提案し,最適手法の迅速な選択効率を96.85%向上させ,キャリブレーションを伴わないオラクルプロンプトF1の99.44%を達成した。
関連論文リスト
- Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Be Aware of the Neighborhood Effect: Modeling Selection Bias under Interference [50.95521705711802]
従来の研究では、予測モデルの偏りのない学習を実現するために、選択バイアスに対処することに注力してきた。
本稿では、因果推論の観点から、近隣効果を干渉問題として公式に定式化する。
本稿では,近隣効果の存在下で選択バイアスに対処できる新しい理想的損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:20:41Z) - Multi-criteria approach for selecting an explanation from the set of counterfactuals produced by an ensemble of explainers [4.239829789304117]
そこで本研究では,マルチ基準解析に基づいて単一対実数を選択するマルチステージアンサンブル手法を提案する。
提案手法は、検討された品質指標の魅力的な妥協値を持つ、完全に実行可能な対策を生成できる。
論文 参考訳(メタデータ) (2024-03-20T19:25:11Z) - Learning Fair Policies for Multi-stage Selection Problems from
Observational Data [4.282745020665833]
我々は、観測データから多段階選択問題に対する公正なポリシーを学習する問題を考察する。
この問題は、企業の雇用、ローン承認、または、選択された結果のみが観察されるような保釈決定など、いくつかの高い評価の領域で発生する。
本稿では,人口格差や平等機会など,様々な公平性制約で拡張可能な多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T16:33:15Z) - Exploring Lottery Prompts for Pre-trained Language Models [46.66885465183664]
インスタンスレベルのプロンプトとその一般化可能性について検討する。
いずれの場合も、ほとんどの場合、PLMから正しい予測を誘導する宝くじプロンプトがある。
一部の強力な宝くじプロンプトは、トレーニングセット全体に対して高いパフォーマンスを持つ。
論文 参考訳(メタデータ) (2023-05-31T02:17:04Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Lookahead and Hybrid Sample Allocation Procedures for Multiple Attribute
Selection Decisions [0.9137554315375922]
本稿では、各測定値が1つの属性の1つのサンプルを1つの代替として生成する設定について考察する。
収集するサンプルが一定数与えられた場合、決定者は、どのサンプルを取得するかを決定し、測定を行い、属性の規模に関する事前の信念を更新し、代替案を選択する必要がある。
論文 参考訳(メタデータ) (2020-07-31T15:04:49Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。