論文の概要: Improving Probability-based Prompt Selection Through Unified Evaluation
and Analysis
- arxiv url: http://arxiv.org/abs/2305.14877v1
- Date: Wed, 24 May 2023 08:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:12:55.711152
- Title: Improving Probability-based Prompt Selection Through Unified Evaluation
and Analysis
- Title(参考訳): 統一評価と分析による確率に基づくプロンプト選択の改善
- Authors: Sohee Yang, Jonghyeon Kim, Joel Jang, Seonghyeon Ye, Hyunji Lee,
Minjoon Seo
- Abstract要約: 本稿では,既存の確率ベースプロンプト選択手法を解釈し,評価する統合フレームワークを提案する。
我々はいくつかのMIの変種を開発し、最良のプロンプト選択法の有効性を87.79%から94.98%に向上させた。
本稿では,既存の手法の勾配であるCBM(Marginalization)と呼ばれる新しいキャリブレーション手法を提案し,最適手法の迅速な選択効率を99.44%向上させる。
- 参考スコア(独自算出の注目度): 22.905973062085305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated great capabilities in solving
a wide range of tasks in a resource-efficient manner through prompting, which
does not require task-specific training, but suffers from performance
fluctuation when there are multiple prompt candidates. Previous works have
introduced gradient-free probability-based prompt selection methods that aim to
choose the optimal prompt among the candidates for a given task but fail to
provide a comprehensive and fair comparison between each other. In this paper,
we propose a unified framework to interpret and evaluate the existing
probability-based prompt selection methods by performing extensive experiments
on 13 common NLP tasks. We find that all existing methods can be unified into
some variant of the method that maximizes the mutual information between the
input and the corresponding model output (denoted as MI). Using the finding, we
develop several variants of MI and increases the effectiveness of the best
prompt selection method from 87.79% to 94.98%, measured as the ratio of the
performance of the selected prompt to that of the optimal oracle prompt.
Furthermore, we propose a novel calibration method called Calibration by
Marginalization (CBM) that is orthogonal to existing methods and helps increase
the prompt selection effectiveness of the best method by 99.44%. The code and
datasets used in our work will be released at
https://github.com/soheeyang/unified-prompt-selection.
- Abstract(参考訳): 大規模言語モデル(llm)は、タスク固有のトレーニングを必要としないが、複数のプロンプト候補が存在する場合にパフォーマンスの変動に苦しむプロンプトを通じて、リソース効率のよい方法で幅広いタスクを解決できる優れた能力を示している。
これまでの研究では、与えられたタスクの候補間の最適なプロンプトを選択することを目的とした、勾配のない確率に基づくプロンプト選択手法を導入していたが、包括的かつ公平な比較には至らなかった。
本論文では,13の共通NLPタスクに対して広範な実験を行うことで,既存の確率ベースのプロンプト選択手法を解釈し,評価する統合フレームワークを提案する。
既存の手法はすべて、入力と対応するモデル出力間の相互情報(mi)を最大化する手法のいくつかの変種に統一できることがわかった。
この発見を用いて、miのいくつかの変種を開発し、選択したプロンプトのパフォーマンスと最適なoracleプロンプトのパフォーマンスの比率として、最良プロンプト選択法の有効性を87.79%から94.98%に向上させる。
さらに,既存の手法と直交し,最良手法の迅速選択効率を99.44%向上させるcbm(calitration by marginalization)と呼ばれる新しい校正法を提案する。
私たちの作業で使用されるコードとデータセットはhttps://github.com/soheeyang/unified-prompt-selectionで公開される。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Be Aware of the Neighborhood Effect: Modeling Selection Bias under Interference [50.95521705711802]
従来の研究では、予測モデルの偏りのない学習を実現するために、選択バイアスに対処することに注力してきた。
本稿では、因果推論の観点から、近隣効果を干渉問題として公式に定式化する。
本稿では,近隣効果の存在下で選択バイアスに対処できる新しい理想的損失を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:20:41Z) - A multi-criteria approach for selecting an explanation from the set of counterfactuals produced by an ensemble of explainers [4.239829789304117]
そこで本研究では,マルチ基準解析に基づいて単一対実数を選択するマルチステージアンサンブル手法を提案する。
提案手法は、検討された品質指標の魅力的な妥協値を持つ、完全に実行可能な対策を生成できる。
論文 参考訳(メタデータ) (2024-03-20T19:25:11Z) - Exploring Lottery Prompts for Pre-trained Language Models [46.66885465183664]
インスタンスレベルのプロンプトとその一般化可能性について検討する。
いずれの場合も、ほとんどの場合、PLMから正しい予測を誘導する宝くじプロンプトがある。
一部の強力な宝くじプロンプトは、トレーニングセット全体に対して高いパフォーマンスを持つ。
論文 参考訳(メタデータ) (2023-05-31T02:17:04Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Lookahead and Hybrid Sample Allocation Procedures for Multiple Attribute
Selection Decisions [0.9137554315375922]
本稿では、各測定値が1つの属性の1つのサンプルを1つの代替として生成する設定について考察する。
収集するサンプルが一定数与えられた場合、決定者は、どのサンプルを取得するかを決定し、測定を行い、属性の規模に関する事前の信念を更新し、代替案を選択する必要がある。
論文 参考訳(メタデータ) (2020-07-31T15:04:49Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。