論文の概要: FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation
- arxiv url: http://arxiv.org/abs/2406.11243v1
- Date: Mon, 17 Jun 2024 06:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:14:15.044230
- Title: FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation
- Title(参考訳): FamiCom:タスク非依存のパフォーマンス推定を伴う言語モデルのためのさらなるデミスティファイションプロンプト
- Authors: Bangzheng Li, Ben Zhou, Xingyu Fu, Fei Wang, Dan Roth, Muhao Chen,
- Abstract要約: 言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
- 参考スコア(独自算出の注目度): 73.454943870226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have shown impressive in-context-learning capabilities, which allow them to benefit from input prompts and perform better on downstream end tasks. Existing works investigate the mechanisms behind this observation, and propose label-agnostic prompt metrics that can better estimate end-task performances. One popular approach is using perplexity as a way to measure models' familiarity with the prompt. While showing consistent improvements on in-domain tasks, we found that familiarity metrics such as perplexity cannot accurately estimate performance in complicated situations such as task or domain transferring scenarios. In this work, we propose a revised measure called FamiCom, providing a more comprehensive measure for task-agnostic performance estimation. Specifically, FamiCom combines familiarity with \textit{complexity} -- the inherent difficulty of end tasks, which is an important factor missing from current metrics. Experiments show that FamiCom strongly correlates with end-task performances, producing a 0.85 Spearman's correlation, versus 0.43 of familiarity-only ones'. We further apply FamiCom to automatic prompt and demonstration selection, and outperform existing methods and baselines by more than 7.0% in accuracy.
- Abstract(参考訳): 言語モデルは、入力プロンプトの恩恵を受け、下流のタスクでより良いパフォーマンスを得られる、印象的なコンテキスト内学習機能を示している。
既存の研究は、この観測の背後にあるメカニズムを調査し、エンドタスクのパフォーマンスをより正確に見積もることができるラベルに依存しないプロンプト指標を提案する。
一般的なアプローチの1つは、モデルとプロンプトとの親しみを測る手段としてパープレキシティ(perplexity)を使用することである。
ドメイン内のタスクに対して一貫した改善を示す一方で、パープレキシティのような親しみやすさの指標は、タスクやドメイン転送シナリオのような複雑な状況におけるパフォーマンスを正確に見積もることができないことがわかった。
本研究では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
特にFamiComは、現在のメトリクスから欠落している重要な要因である、エンドタスクの固有の難しさである‘textit{complexity}’と親しみやすさを組み合わせている。
実験の結果、FamiComはエンドタスクのパフォーマンスと強く相関し、0.85のスピアマンの相関が生じる。
さらに、FamiComを自動プロンプトとデモ選択に適用し、既存のメソッドやベースラインを7.0%以上精度で上回ります。
関連論文リスト
- On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Flatness-Aware Prompt Selection Improves Accuracy and Sample Efficiency [26.829610705207955]
本稿では,言語プロンプトの期待される有用性を定量化する新しい指標であるプロンプト平坦性を導入する。
既存の指標と即時平坦性を組み合わせることで、性能とサンプル効率が向上することを示す。
論文 参考訳(メタデータ) (2023-05-18T05:17:57Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - MetricOpt: Learning to Optimize Black-Box Evaluation Metrics [21.608384691401238]
誤分類率やリコールなどのタスク評価指標を任意に最適化する問題について検討する。
MetricOptと呼ばれる私たちの方法は、ターゲットメトリックの計算詳細が不明なブラックボックス設定で動作します。
我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。
論文 参考訳(メタデータ) (2021-04-21T16:50:01Z) - Function Contrastive Learning of Transferable Meta-Representations [38.31692245188669]
共同訓練がメタ表現の伝達性に及ぼす影響について検討した。
教師付きメタ学習のためのデカップリングエンコーダデコーダアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-14T13:50:22Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。