論文の概要: Investigating Selective Prediction Approaches Across Several Tasks in
IID, OOD, and Adversarial Settings
- arxiv url: http://arxiv.org/abs/2203.00211v1
- Date: Tue, 1 Mar 2022 03:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 13:01:17.528941
- Title: Investigating Selective Prediction Approaches Across Several Tasks in
IID, OOD, and Adversarial Settings
- Title(参考訳): IID, OOD, and Adversarial Setsにおける複数タスク間の選択予測手法の検討
- Authors: Neeraj Varshney, Swaroop Mishra, and Chitta Baral
- Abstract要約: 我々は,複数のNLPタスクにまたがる17データセットの大規模セットアップにおいて,「選択的予測」を体系的に研究した。
我々は、追加のリソースを活用するにもかかわらず、既存のアプローチが3つの設定すべてでMaxProbを一貫して、かなり上回っていることを示しています。
- 参考スコア(独自算出の注目度): 22.043291547405545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to equip NLP systems with selective prediction capability, several
task-specific approaches have been proposed. However, which approaches work
best across tasks or even if they consistently outperform the simplest baseline
'MaxProb' remains to be explored. To this end, we systematically study
'selective prediction' in a large-scale setup of 17 datasets across several NLP
tasks. Through comprehensive experiments under in-domain (IID), out-of-domain
(OOD), and adversarial (ADV) settings, we show that despite leveraging
additional resources (held-out data/computation), none of the existing
approaches consistently and considerably outperforms MaxProb in all three
settings. Furthermore, their performance does not translate well across tasks.
For instance, Monte-Carlo Dropout outperforms all other approaches on Duplicate
Detection datasets but does not fare well on NLI datasets, especially in the
OOD setting. Thus, we recommend that future selective prediction approaches
should be evaluated across tasks and settings for reliable estimation of their
capabilities.
- Abstract(参考訳): NLPシステムに選択的予測機能を持たせるために,タスク固有のアプローチが提案されている。
しかし、どのアプローチがタスクをまたいで最もうまく機能するか、あるいは最も単純なベースラインである'maxprob'を一貫して上回っても、まだ検討されていない。
そこで本研究では,複数のnlpタスクにまたがる17のデータセットの大規模セットアップにおいて,「選択予測」を体系的に検討する。
ドメイン内(IID)、ドメイン外(OOD)、およびADV(adversarial)設定の下での包括的な実験により、追加のリソース(保持データ/計算)を活用するにもかかわらず、既存のアプローチはいずれも3つの設定すべてでMaxProbより一貫して、かなり優れています。
さらに、それらのパフォーマンスはタスク間でうまく翻訳されない。
例えば、Monte-Carlo Dropoutは、Duplicate Detectionデータセットで他のすべてのアプローチよりも優れていますが、特にOOD設定では、NLIデータセットではうまくいきません。
そこで我々は,今後の選択的予測手法をタスクや設定全体にわたって評価し,信頼性の高い評価を行うことを推奨する。
関連論文リスト
- Online Gaussian Test-Time Adaptation of Vision-Language Models [13.90714913643503]
オンラインガウス適応(英語: Online Gaussian Adaptation, OGA)は、ガウス分布を用いた視覚的特徴の可能性をモデル化する新しい手法である。
OGAは、ほとんどのデータセットや実行で最先端のメソッドよりも優れています。
実験により,全OTTA法において,各データセットに対して平均3回以上の平均動作性能を示すOTTA評価プロトコルが不十分であることが判明した。
論文 参考訳(メタデータ) (2025-01-08T08:49:52Z) - Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - Optimizing accuracy and diversity: a multi-task approach to forecast
combinations [0.0]
両問題を同時に解くことに焦点を当てたマルチタスク最適化パラダイムを提案する。
標準的な機能ベースの予測アプローチに、さらなる学習と最適化のタスクが組み込まれている。
提案手法は,特徴に基づく予測において,多様性の本質的な役割を引き出すものである。
論文 参考訳(メタデータ) (2023-10-31T15:26:33Z) - Unified Pretraining for Recommendation via Task Hypergraphs [55.98773629788986]
本稿では,タスクハイパーグラフによる推薦のための統一事前学習という,新しいマルチタスク事前学習フレームワークを提案する。
多様なプレテキストタスクの要求やニュアンスを処理するための統一学習パターンとして,プレテキストタスクをハイパーエッジ予測に一般化するタスクハイパーグラフを設計する。
各プレテキストタスクとレコメンデーションの関連性を識別的に学習するために、新しいトランジショナルアテンション層が考案される。
論文 参考訳(メタデータ) (2023-10-20T05:33:21Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Consolidated learning -- a domain-specific model-free optimization
strategy with examples for XGBoost and MIMIC-IV [4.370097023410272]
本稿では,統合学習と呼ばれるチューニング問題の新たな定式化を提案する。
このような設定では、単一のタスクをチューニングするよりも、全体の最適化時間に関心があります。
我々は,XGBoostアルゴリズムの実証研究とMIMIC-IV医療データベースから抽出した予測タスクの収集を通じて,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-01-27T21:38:53Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。