論文の概要: Stronger Random Baselines for In-Context Learning
- arxiv url: http://arxiv.org/abs/2404.13020v2
- Date: Mon, 11 Nov 2024 18:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:50.313566
- Title: Stronger Random Baselines for In-Context Learning
- Title(参考訳): 文脈内学習のための強いランダムベースライン
- Authors: Gregory Yauney, David Mimno,
- Abstract要約: 標準ランダムベースラインは、評価セットが一度だけ使用される場合、あるいはデータセットが大きい場合、安定である。
我々は、検証セットの再利用の一般的な実践と、より強いランダムなベースラインを持つ既存の小さなデータセットを説明する。
標準ベースラインを超える数ショット結果の20%以上は、この強いランダムベースラインを超えない。
- 参考スコア(独自算出の注目度): 3.8520163964103835
- License:
- Abstract: Evaluating the in-context learning classification performance of language models poses challenges due to small dataset sizes, extensive prompt-selection using the validation set, and intentionally difficult tasks that lead to near-random performance. The standard random baseline--the expected accuracy of guessing labels uniformly at random--is stable when the evaluation set is used only once or when the dataset is large. We account for the common practice of validation set reuse and existing small datasets with a stronger random baseline: the expected maximum accuracy across multiple random classifiers. When choosing the best prompt demonstrations across six quantized language models applied to 16 BIG-bench Lite tasks, more than 20% of the few-shot results that exceed the standard baseline do not exceed this stronger random baseline. When held-out test sets are available, this stronger baseline is also a better predictor of held-out performance than the standard baseline, avoiding unnecessary test set evaluations. This maximum random baseline provides an easily calculated drop-in replacement for the standard baseline.
- Abstract(参考訳): 言語モデルの文脈内学習分類性能を評価することは、データセットのサイズが小さいこと、検証セットを用いた広範囲なプロンプト選択、ほぼランダムなパフォーマンスにつながる意図的なタスクによる課題を引き起こす。
標準ランダムベースライン - 評価セットが一度しか使われていない場合やデータセットが大きい場合、ラベルをランダムに推測する予測精度が安定である。
検証セットの再利用の一般的な実践と、より強いランダムベースラインを持つ既存の小さなデータセット、すなわち、複数のランダム分類器にまたがる最大精度について説明する。
16のBIG-bench Liteタスクに適用された6つの量子化言語モデルに対する最も優れたプロンプトデモを選択すると、標準ベースラインを超える数ショット結果の20%以上は、この強いランダムベースラインを超えない。
ホールドアウトテストセットが利用可能であれば、この強力なベースラインは標準ベースラインよりもホールドアウトパフォーマンスの予測器として優れ、不要なテストセットの評価を避けることができる。
この最大ランダムベースラインは、標準ベースラインの容易に計算されたドロップイン置換を提供する。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Is this model reliable for everyone? Testing for strong calibration [4.893345190925178]
十分に校正されたリスク予測モデルでは、平均予測確率は任意のサブグループの真の事象率に近い。
強いキャリブレーションのためのモデル監査のタスクは、潜在的な部分群の数が多すぎるため、難しいことが知られている。
適合性試験の最近の進歩は潜在的な解決策を提供するが、弱い信号を持つ設定には設計されていない。
論文 参考訳(メタデータ) (2023-07-28T00:59:14Z) - The Optimal Input-Independent Baseline for Binary Classification: The
Dutch Draw [0.0]
本研究の目的は,特徴値に依存しない基本手法について検討することである。
どのベースラインモデルが最適かを特定することにより、評価プロセスにおける重要な選択決定が簡単になる。
論文 参考訳(メタデータ) (2023-01-09T13:11:59Z) - Statistical Comparisons of Classifiers by Generalized Stochastic
Dominance [0.0]
いくつかの基準に関して、分類器を複数のデータセットで比較する方法については、まだ合意が得られていない。
本稿では, 意思決定理論の最近の展開を取り入れた, 鮮明な議論に新たな視点を加える。
我々のフレームワークは、支配という一般化された概念によって分類器をランク付けし、それは煩雑なものを強力に回避し、しばしば自己矛盾的であり、集約に依存していることを示している。
論文 参考訳(メタデータ) (2022-09-05T09:28:15Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Small but Mighty: New Benchmarks for Split and Rephrase [18.959219419951083]
Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。
広く使われているベンチマークデータセットは、簡単に利用できる構文的手がかりを普遍的に含んでいることがわかった。
単純なルールベースモデルであっても,最先端モデルと同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-17T23:37:33Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。