論文の概要: Exploring Out-of-Distribution Generalization in Text Classifiers Trained
on Tobacco-3482 and RVL-CDIP
- arxiv url: http://arxiv.org/abs/2108.02684v1
- Date: Thu, 5 Aug 2021 15:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:44:19.914711
- Title: Exploring Out-of-Distribution Generalization in Text Classifiers Trained
on Tobacco-3482 and RVL-CDIP
- Title(参考訳): Tobacco-3482 と RVL-CDIP を用いたテキスト分類における分布外一般化の探索
- Authors: Stefan Larson, Navtej Singh, Saarthak Maheshwari, Shanti Stewart, Uma
Krishnaswamy
- Abstract要約: 本稿では,標準文書分類データセットに基づいて訓練されたテキスト分類器を用いて,推論時にアウト・オブ・ディストリビューション文書に一般化する能力について検討する。
Tobacco-3482 と RVL-CDIP データセットを出発点として,新たなアウト・オブ・ディストリビューション評価データセットを生成する。
より小さなTobacco-3482データセットでトレーニングされたモデルは、我々の新しいアウト・オブ・ディストリビューション・データでは性能が悪く、大きなRVL-CDIPでトレーニングされたテキスト分類モデルは、より少ない性能低下を示す。
- 参考スコア(独自算出の注目度): 0.6871147064097144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To be robust enough for widespread adoption, document analysis systems
involving machine learning models must be able to respond correctly to inputs
that fall outside of the data distribution that was used to generate the data
on which the models were trained. This paper explores the ability of text
classifiers trained on standard document classification datasets to generalize
to out-of-distribution documents at inference time. We take the Tobacco-3482
and RVL-CDIP datasets as a starting point and generate new out-of-distribution
evaluation datasets in order to analyze the generalization performance of
models trained on these standard datasets. We find that models trained on the
smaller Tobacco-3482 dataset perform poorly on our new out-of-distribution
data, while text classification models trained on the larger RVL-CDIP exhibit
smaller performance drops.
- Abstract(参考訳): 広く普及するには、機械学習モデルを含む文書分析システムは、モデルがトレーニングされたデータを生成するのに使用されたデータ分散の外にある入力に正しく応答できなければならない。
本稿では,標準文書分類データセットで学習したテキスト分類器を用いて,推定時に分布外文書に一般化する能力について検討する。
Tobacco-3482とRVL-CDIPデータセットを出発点として、これらの標準データセットでトレーニングされたモデルの一般化性能を分析するために、新しいアウト・オブ・ディストリビューション評価データセットを生成する。
より小さなTobacco-3482データセットでトレーニングされたモデルは、我々の新しいアウト・オブ・ディストリビューション・データでは性能が悪く、大きなRVL-CDIPでトレーニングされたテキスト分類モデルは、より少ない性能低下を示す。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - ProtoNER: Few shot Incremental Learning for Named Entity Recognition
using Prototypical Networks [7.317342506617286]
プロトタイプネットワークに基づくエンドツーエンドKVP抽出モデルを示す。
モデルの初期トレーニングに使用されるデータセットに依存しない。
ノイズを付加し、結果としてモデルの性能劣化を引き起こすような中間合成データ生成は行われない。
論文 参考訳(メタデータ) (2023-10-03T18:52:19Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。