論文の概要: Improving Probability-based Prompt Selection Through Unified Evaluation
and Analysis
- arxiv url: http://arxiv.org/abs/2305.14877v1
- Date: Wed, 24 May 2023 08:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:12:55.711152
- Title: Improving Probability-based Prompt Selection Through Unified Evaluation
and Analysis
- Title(参考訳): 統一評価と分析による確率に基づくプロンプト選択の改善
- Authors: Sohee Yang, Jonghyeon Kim, Joel Jang, Seonghyeon Ye, Hyunji Lee,
Minjoon Seo
- Abstract要約: 本稿では,既存の確率ベースプロンプト選択手法を解釈し,評価する統合フレームワークを提案する。
我々はいくつかのMIの変種を開発し、最良のプロンプト選択法の有効性を87.79%から94.98%に向上させた。
本稿では,既存の手法の勾配であるCBM(Marginalization)と呼ばれる新しいキャリブレーション手法を提案し,最適手法の迅速な選択効率を99.44%向上させる。
- 参考スコア(独自算出の注目度): 22.905973062085305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated great capabilities in solving
a wide range of tasks in a resource-efficient manner through prompting, which
does not require task-specific training, but suffers from performance
fluctuation when there are multiple prompt candidates. Previous works have
introduced gradient-free probability-based prompt selection methods that aim to
choose the optimal prompt among the candidates for a given task but fail to
provide a comprehensive and fair comparison between each other. In this paper,
we propose a unified framework to interpret and evaluate the existing
probability-based prompt selection methods by performing extensive experiments
on 13 common NLP tasks. We find that all existing methods can be unified into
some variant of the method that maximizes the mutual information between the
input and the corresponding model output (denoted as MI). Using the finding, we
develop several variants of MI and increases the effectiveness of the best
prompt selection method from 87.79% to 94.98%, measured as the ratio of the
performance of the selected prompt to that of the optimal oracle prompt.
Furthermore, we propose a novel calibration method called Calibration by
Marginalization (CBM) that is orthogonal to existing methods and helps increase
the prompt selection effectiveness of the best method by 99.44%. The code and
datasets used in our work will be released at
https://github.com/soheeyang/unified-prompt-selection.
- Abstract(参考訳): 大規模言語モデル(llm)は、タスク固有のトレーニングを必要としないが、複数のプロンプト候補が存在する場合にパフォーマンスの変動に苦しむプロンプトを通じて、リソース効率のよい方法で幅広いタスクを解決できる優れた能力を示している。
これまでの研究では、与えられたタスクの候補間の最適なプロンプトを選択することを目的とした、勾配のない確率に基づくプロンプト選択手法を導入していたが、包括的かつ公平な比較には至らなかった。
本論文では,13の共通NLPタスクに対して広範な実験を行うことで,既存の確率ベースのプロンプト選択手法を解釈し,評価する統合フレームワークを提案する。
既存の手法はすべて、入力と対応するモデル出力間の相互情報(mi)を最大化する手法のいくつかの変種に統一できることがわかった。
この発見を用いて、miのいくつかの変種を開発し、選択したプロンプトのパフォーマンスと最適なoracleプロンプトのパフォーマンスの比率として、最良プロンプト選択法の有効性を87.79%から94.98%に向上させる。
さらに,既存の手法と直交し,最良手法の迅速選択効率を99.44%向上させるcbm(calitration by marginalization)と呼ばれる新しい校正法を提案する。
私たちの作業で使用されるコードとデータセットはhttps://github.com/soheeyang/unified-prompt-selectionで公開される。
関連論文リスト
- Be Aware of the Neighborhood Effect: Modeling Selection Bias under Interference [50.95521705711802]
従来の研究では、予測モデルの偏りのない学習を実現するために、選択バイアスに対処することに注力してきた。
本稿では、因果推論の観点から、近隣効果を干渉問題として公式に定式化する。
本稿では,近隣効果の存在下で選択バイアスに対処できる新しい理想的損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:20:41Z) - Multi-criteria approach for selecting an explanation from the set of counterfactuals produced by an ensemble of explainers [4.239829789304117]
そこで本研究では,マルチ基準解析に基づいて単一対実数を選択するマルチステージアンサンブル手法を提案する。
提案手法は、検討された品質指標の魅力的な妥協値を持つ、完全に実行可能な対策を生成できる。
論文 参考訳(メタデータ) (2024-03-20T19:25:11Z) - Learning Fair Policies for Multi-stage Selection Problems from
Observational Data [4.282745020665833]
我々は、観測データから多段階選択問題に対する公正なポリシーを学習する問題を考察する。
この問題は、企業の雇用、ローン承認、または、選択された結果のみが観察されるような保釈決定など、いくつかの高い評価の領域で発生する。
本稿では,人口格差や平等機会など,様々な公平性制約で拡張可能な多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T16:33:15Z) - Exploring Lottery Prompts for Pre-trained Language Models [46.66885465183664]
インスタンスレベルのプロンプトとその一般化可能性について検討する。
いずれの場合も、ほとんどの場合、PLMから正しい予測を誘導する宝くじプロンプトがある。
一部の強力な宝くじプロンプトは、トレーニングセット全体に対して高いパフォーマンスを持つ。
論文 参考訳(メタデータ) (2023-05-31T02:17:04Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Lookahead and Hybrid Sample Allocation Procedures for Multiple Attribute
Selection Decisions [0.9137554315375922]
本稿では、各測定値が1つの属性の1つのサンプルを1つの代替として生成する設定について考察する。
収集するサンプルが一定数与えられた場合、決定者は、どのサンプルを取得するかを決定し、測定を行い、属性の規模に関する事前の信念を更新し、代替案を選択する必要がある。
論文 参考訳(メタデータ) (2020-07-31T15:04:49Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。