論文の概要: Estimating Large Language Model Capabilities without Labeled Test Data
- arxiv url: http://arxiv.org/abs/2305.14802v2
- Date: Thu, 26 Oct 2023 06:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:59:52.423762
- Title: Estimating Large Language Model Capabilities without Labeled Test Data
- Title(参考訳): ラベル付きテストデータなしの大規模言語モデル能力の推定
- Authors: Harvey Yiyun Fu, Qinyuan Ye, Albert Xu, Xiang Ren, Robin Jia
- Abstract要約: 大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
- 参考スコア(独自算出の注目度): 51.428562302037534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have the impressive ability to perform
in-context learning (ICL) from only a few examples, but the success of ICL
varies widely from task to task. Thus, it is important to quickly determine
whether ICL is applicable to a new task, but directly evaluating ICL accuracy
can be expensive in situations where test data is expensive to annotate -- the
exact situations where ICL is most appealing. In this paper, we propose the
task of ICL accuracy estimation, in which we predict the accuracy of an LLM
when doing in-context learning on a new task given only unlabeled test data for
that task. To perform ICL accuracy estimation, we propose a method that trains
a meta-model using LLM confidence scores as features. We compare our method to
several strong accuracy estimation baselines on a new benchmark that covers 4
LLMs and 3 task collections. The meta-model improves over all baselines across
8 out of 12 settings and achieves the same estimation performance as directly
evaluating on 40 collected labeled test examples per task. At the same time, no
existing approach provides an accurate and reliable ICL accuracy estimation in
every setting, highlighting the need for better ways to measure the uncertainty
of LLM predictions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、いくつかの例からICL(In-context Learning)を実行するという印象的な能力を持っているが、ICLの成功はタスクによって大きく異なる。
したがって、新しいタスクにiclが適用可能かどうかを迅速に判断することは重要であるが、テストデータに注釈がかかる場合、直接的にiclの精度を評価することはコストがかかる可能性がある。
本稿では,そのタスクに対してラベルのないテストデータのみを与えられた新しいタスクに対して,文脈内学習を行う場合のLLMの精度を予測できるICL精度推定タスクを提案する。
ICLの精度推定を行うために,LCM信頼スコアを特徴としてメタモデルを訓練する手法を提案する。
4 llms と 3 つのタスクコレクションをカバーする新しいベンチマークにおいて,本手法を複数の高精度推定ベースラインと比較した。
メタモデルは、12設定中8つのベースラインにまたがるすべてのベースラインを改善し、タスク毎の40のラベル付きテスト例を直接評価するのと同じ推定性能を達成する。
同時に、既存のアプローチは全ての設定において正確で信頼性の高いICL精度推定を提供しておらず、LCM予測の不確実性を測定するためのより良い方法の必要性を強調している。
関連論文リスト
- Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - The ICL Consistency Test [14.569770617709073]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)のようなプロンプトベースの手法によってタスクに適応する。
素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。
ここでは ICL 一貫性テストを紹介します -- GenBench 共同ベンチマークタスク (CBT) へのコントリビューションです。
論文 参考訳(メタデータ) (2023-12-08T10:22:43Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文 参考訳(メタデータ) (2022-12-20T15:58:54Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。