論文の概要: Assessing Out-of-Domain Language Model Performance from Few Examples
- arxiv url: http://arxiv.org/abs/2210.06725v1
- Date: Thu, 13 Oct 2022 04:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:41:31.357185
- Title: Assessing Out-of-Domain Language Model Performance from Few Examples
- Title(参考訳): 少数例によるドメイン外言語モデルの性能評価
- Authors: Prasann Singhal, Jarad Forristal, Xi Ye, Greg Durrett
- Abstract要約: ドメイン外性能(OOD)を数ショットで予測するタスクに対処する。
数ショットの例でモデル精度をみると、このタスクのパフォーマンスをベンチマークする。
帰属に基づく要因がOODの相対モデルの性能のランク付けに有効であることを示す。
- 参考スコア(独自算出の注目度): 38.245449474937914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While pretrained language models have exhibited impressive generalization
capabilities, they still behave unpredictably under certain domain shifts. In
particular, a model may learn a reasoning process on in-domain training data
that does not hold for out-of-domain test data. We address the task of
predicting out-of-domain (OOD) performance in a few-shot fashion: given a few
target-domain examples and a set of models with similar training performance,
can we understand how these models will perform on OOD test data? We benchmark
the performance on this task when looking at model accuracy on the few-shot
examples, then investigate how to incorporate analysis of the models' behavior
using feature attributions to better tackle this problem. Specifically, we
explore a set of "factors" designed to reveal model agreement with certain
pathological heuristics that may indicate worse generalization capabilities. On
textual entailment, paraphrase recognition, and a synthetic classification
task, we show that attribution-based factors can help rank relative model OOD
performance. However, accuracy on a few-shot test set is a surprisingly strong
baseline, particularly when the system designer does not have in-depth prior
knowledge about the domain shift.
- Abstract(参考訳): 事前学習された言語モデルは印象的な一般化能力を示したが、一定のドメインシフト下では予測不能に振る舞う。
特に、モデルはドメイン外のテストデータを保持しないドメイン内のトレーニングデータの推論プロセスを学ぶことができる。
ドメイン外の(OOD)パフォーマンスを数ショットで予測するタスクに対処する: ドメインのいくつかの例と、同様のトレーニングパフォーマンスを持つモデルのセットを考えると、これらのモデルがOODテストデータ上でどのように機能するかを理解できますか?
本研究は,いくつかの例でモデル精度を検証し,特徴属性を用いたモデル動作解析を組み込んでこの問題に対処する方法について検討する。
具体的には、特定の病理学的ヒューリスティックとのモデル合意を明らかにするために設計された一連の「因子」を探索し、より悪い一般化能力を示すかもしれない。
テキストエンテーメント、パラフレーズ認識、および合成分類タスクにおいて、帰属に基づく要因がOODの相対モデルの性能のランク付けに役立つことを示す。
しかしながら、数ショットテストセットの精度は驚くほど強力なベースラインであり、特にシステム設計者がドメインシフトに関する詳細な知識を持っていない場合である。
関連論文リスト
- Few-shot Prompting for Pairwise Ranking: An Effective Non-Parametric Retrieval Model [18.111868378615206]
本稿では,複雑な訓練パイプラインを必要とせず,教師付きモデルに近い性能を達成できる一対数ショットローダを提案する。
また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T11:19:09Z) - Explaining Pre-Trained Language Models with Attribution Scores: An
Analysis in Low-Resource Settings [32.03184402316848]
我々は,素早いモデルから抽出した帰属スコアの妥当性と忠実度を分析した。
プロンプトパラダイムを用いることで、低リソース環境下でモデルを微調整するよりも、より妥当な説明が得られます。
論文 参考訳(メタデータ) (2024-03-08T14:14:37Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - EvEntS ReaLM: Event Reasoning of Entity States via Language Models [24.077262847151232]
残念なことに、Large Language Model(LLM)は、オブジェクトの相互作用に関する手続き的な知識を公開しています。
特に,本研究の結果は,未確認属性(ドメイン外)や限られたデータしか利用できない場合に特に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T07:48:01Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。