論文の概要: What do we expect from Multiple-choice QA Systems?
- arxiv url: http://arxiv.org/abs/2011.10647v1
- Date: Fri, 20 Nov 2020 21:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:04:04.385152
- Title: What do we expect from Multiple-choice QA Systems?
- Title(参考訳): マルチ選択QAシステムに何を期待しますか?
- Authors: Krunal Shah, Nitish Gupta, Dan Roth
- Abstract要約: 複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
- 参考スコア(独自算出の注目度): 70.86513724662302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of machine learning systems on various QA datasets could
be interpreted as a significant improvement in models' language understanding
abilities. However, using various perturbations, multiple recent works have
shown that good performance on a dataset might not indicate performance that
correlates well with human's expectations from models that "understand"
language. In this work we consider a top performing model on several Multiple
Choice Question Answering (MCQA) datasets, and evaluate it against a set of
expectations one might have from such a model, using a series of
zero-information perturbations of the model's inputs. Our results show that the
model clearly falls short of our expectations, and motivates a modified
training approach that forces the model to better attend to the inputs. We show
that the new training paradigm leads to a model that performs on par with the
original model while better satisfying our expectations.
- Abstract(参考訳): さまざまなQAデータセット上での機械学習システムの最近の成功は、モデルの言語理解能力の大幅な向上と解釈できる。
しかし、様々な摂動を用いて、最近の複数の研究により、データセットの優れたパフォーマンスは「理解する」言語モデルからの人間の期待と相関する性能を示すものではないことが示されている。
本研究では,複数のMultiple Choice Question Answering (MCQA)データセット上でトップパフォーマンスモデルを検討し,モデル入力のゼロ情報摂動を用いて,そのようなモデルから得られる可能性のある一連の期待値に対して評価する。
結果から,モデルが期待に届かないことは明らかであり,モデルの入力によりよい参加を強制する,トレーニングアプローチの変更が動機となっている。
新しいトレーニングパラダイムは、私たちの期待をより良く満たしながら、元のモデルと同等に機能するモデルに導かれることを示す。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - PAMI: partition input and aggregate outputs for model interpretation [69.42924964776766]
本研究では、深層学習モデルが局所的な特徴を集約してモデル予測を行うという観察に基づいて、PAMIと呼ばれるシンプルで効果的な可視化フレームワークを提案する。
基本的な考え方は、入力の大多数を隠蔽し、元のモデル予測に対する保存された入力部の相対的な寄与として対応するモデル出力を使用することである。
複数のタスクに対する大規模な実験により,提案手法は,クラス固有の入力領域をより正確に見つけるために,既存の可視化手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-02-07T08:48:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - A Comparative Study of Transformer-Based Language Models on Extractive
Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。
F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-10-07T02:23:19Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - A Simple and Interpretable Predictive Model for Healthcare [0.0]
ディープラーニングモデルは、現在、病気予測のための最先端のソリューションの大半を支配しています。
トレーニング可能なパラメータが数百万に分散したこれらのディープラーニングモデルは、トレーニングとデプロイに大量の計算とデータを必要とします。
EHRデータに適用するための,より単純かつ解釈可能な非深層学習モデルを開発した。
論文 参考訳(メタデータ) (2020-07-27T08:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。