論文の概要: Benchmarking Long-tail Generalization with Likelihood Splits
- arxiv url: http://arxiv.org/abs/2210.06799v1
- Date: Thu, 13 Oct 2022 07:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:40:11.475575
- Title: Benchmarking Long-tail Generalization with Likelihood Splits
- Title(参考訳): Likelihood Splitsによるロングテール一般化のベンチマーク
- Authors: Ameya Godbole, Robin Jia
- Abstract要約: 本稿では,既存のデータセットを再分割することで,分布の尾に一般化する必要のある,挑戦的なベンチマークを作成する手法を提案する。
事前訓練された言語モデルによって低い確率で割り当てられた例をテストセットに配置し、よりありそうな例をトレーニングセットに配置する「Likelihood splits」を作成します。
- 参考スコア(独自算出の注目度): 20.47194488430863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to reliably process natural language, NLP systems must generalize to
the long tail of rare utterances. We propose a method to create challenging
benchmarks that require generalizing to the tail of the distribution by
re-splitting existing datasets. We create 'Likelihood splits' where examples
that are assigned lower likelihood by a pre-trained language model (LM) are
placed in the test set, and more likely examples are in the training set. This
simple approach can be customized to construct meaningful train-test splits for
a wide range of tasks. Likelihood splits are more challenging than random
splits: relative error rates of state-of-the-art models on our splits increase
by 59% for semantic parsing on Spider, 77% for natural language inference on
SNLI, and 38% for yes/no question answering on BoolQ compared with the
corresponding random splits. Moreover, Likelihood splits create fairer
benchmarks than adversarial filtering; when the LM used to create the splits is
used as the task model, our splits do not adversely penalize the LM.
- Abstract(参考訳): 自然言語を確実に処理するためには、NLPシステムは稀な発話の長い尾に一般化する必要がある。
本稿では,既存のデータセットを再分割することで,分布の尾に一般化する必要のある,挑戦的なベンチマークを作成する手法を提案する。
そこでは、事前学習された言語モデル(lm)によって低い確率で割り当てられた例をテストセットに配置し、より可能性の高い例をトレーニングセットに配置する。
このシンプルなアプローチは、幅広いタスクで有意義な列車テスト分割を構築するためにカスタマイズできる。
我々の分割における最先端モデルの相対誤差率は、スパイダーのセマンティック解析では59%、SNLIの自然言語推論では77%、BoolQのイエス/ノー質問では38%増加した。
さらに、Islihoodのスプリットは、逆フィルタリングよりも公平なベンチマークを生成し、スプリットの生成に使用されるLMがタスクモデルとして使用される場合、私たちのスプリットはLMを悪用しない。
関連論文リスト
- Paloma: A Benchmark for Evaluating Language Model Fit [114.63031978259467]
言語モデルアセスメント(Paloma)は585のテキストドメインに適合する。
一般的なコーパスで事前学習したベースラインの結果をベンチマークに投入する。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z) - SeqZero: Few-shot Compositional Semantic Parsing with Sequential Prompts
and Zero-shot Models [57.29358388475983]
近年の研究では、事前訓練された言語モデルと標準発話を併用する有望な結果が示されている。
本稿では,SeqZeroという構文解析手法を提案する。
特に、SeqZeroは、提案した制約付き再スケーリングを備えたアンサンブルによって、両方のモデルのメリットを明らかにします。
論文 参考訳(メタデータ) (2022-05-15T21:13:15Z) - Learning to Split for Automatic Bias Detection [39.353850990332525]
Learning to Split (ls)は自動バイアス検出のためのアルゴリズムである。
我々は,Beer Review,CelebA,MNLIに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-04-28T19:41:08Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - A Conditional Splitting Framework for Efficient Constituency Parsing [14.548146390081778]
本稿では,選択性解析問題(シンタクティックおよび談話構文解析)を一連の条件分割決定に当てはめる,汎用的なSeq2seq解析フレームワークを提案する。
解析モデルでは,テキストスパンで可能な分割点の条件付き確率分布を推定し,効率的なトップダウンデコーディングをサポートする。
談話分析では, 談話セグメンテーションを解析の特別な事例として扱うことができる。
論文 参考訳(メタデータ) (2021-06-30T00:36:34Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - We Need to Talk About Random Splits [3.236124102160291]
ゴーマンとベドリックは、NLP実験において標準的な分割ではなくランダム分割を使うことを主張した。
標準的な分割のようにランダムな分割は、過度に楽観的なパフォーマンス推定につながると我々は主張する。
論文 参考訳(メタデータ) (2020-05-01T22:14:16Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。