論文の概要: Gestalt: a Stacking Ensemble for SQuAD2.0
- arxiv url: http://arxiv.org/abs/2004.07067v1
- Date: Thu, 2 Apr 2020 08:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:29:22.652714
- Title: Gestalt: a Stacking Ensemble for SQuAD2.0
- Title(参考訳): Gestalt: SQuAD2.0のスタック化アンサンブル
- Authors: Mohamed El-Geish
- Abstract要約: 本稿では,文脈文中の質問に対する正しい回答を見つけ出し,提示する深層学習システムを提案する。
我々のゴールは、各アンサンブルで最高のモデルを上回る異種SQuAD2.0モデルのアンサンブルを学習することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a deep-learning system -- for the SQuAD2.0 task -- that finds, or
indicates the lack of, a correct answer to a question in a context paragraph.
Our goal is to learn an ensemble of heterogeneous SQuAD2.0 models that, when
blended properly, outperforms the best model in the ensemble per se. We created
a stacking ensemble that combines top-N predictions from two models, based on
ALBERT and RoBERTa, into a multiclass classification task to pick the best
answer out of their predictions. We explored various ensemble configurations,
input representations, and model architectures. For evaluation, we examined
test-set EM and F1 scores; our best-performing ensemble incorporated a
CNN-based meta-model and scored 87.117 and 90.306, respectively -- a relative
improvement of 0.55% for EM and 0.61% for F1 scores, compared to the baseline
performance of the best model in the ensemble, an ALBERT-based model, at 86.644
for EM and 89.760 for F1.
- Abstract(参考訳): 我々は,文脈段落の質問に対する正しい回答を見つけ出す,あるいは示さないことを示す深層学習システムを提案する。
我々の目標は、不均質なdistribute2.0モデルのアンサンブルを学習することであり、適切にブレンドすると、そのアンサンブルの最良のモデルよりも優れています。
albertとrobertaに基づく2つのモデルによるトップn予測を、予測から最適な回答を選択するためのマルチクラス分類タスクに組み合わせた、積み重ねアンサンブルを作成しました。
我々は様々なアンサンブル構成、入力表現、モデルアーキテクチャについて検討した。
評価のために,テストセットEMとF1のスコアについて検討した。我々のベストパフォーマンスアンサンブルではCNNベースのメタモデルが87.117と90.306であり,EMは0.55%,F1スコアは0.61%,ALBERTベースのモデルでは86.644,F1は89.760であった。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - An Automated Question-Answering Framework Based on Evolution Algorithm [19.054115603616513]
複数のデータセットに対してネットワークアーキテクチャを調整可能な自動質問応答フレームワークを提案する。
本フレームワークはSQuAD 1.1では78.9 EM,86.1 F1,SQuAD 2.0では69.9 EM,72.5 F1を実現している。
論文 参考訳(メタデータ) (2022-01-26T08:13:24Z) - Ensemble ALBERT on SQuAD 2.0 [0.0]
本稿では,ALBERTモデルを微調整し,モデル性能を向上させるために追加レイヤの組み合わせを実装した。
私たちの最高のパフォーマンスの個人モデルはALBERT-xxlarge + ALBERT-SQuAD-outで、開発セットでF1スコア88.435を達成しました。
いくつかの最高の性能のモデルの結果を重み付けされた投票アンサンブルアルゴリズムに渡すことで、最終結果は、F1 = 90.123のStanford CS224N Test PCE SQuAD Leaderboardにランクインする。
論文 参考訳(メタデータ) (2021-10-19T00:15:19Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Multiple Run Ensemble Learning withLow-Dimensional Knowledge Graph
Embeddings [4.317340121054659]
知識グラフ埋め込み(KGE)モデルのためのシンプルで効果的なパフォーマンス向上戦略を提案する。
モデルのトレーニングを200の埋め込みサイズと並行して6回繰り返し、テストのために6つの別々のモデルを組み合わせています。
このアプローチにより,様々なグラフパターンをモデル化する上で,様々なモデルがよりうまく対処できることが示される。
論文 参考訳(メタデータ) (2021-04-11T12:26:50Z) - FiSSA at SemEval-2020 Task 9: Fine-tuned For Feelings [2.362412515574206]
本稿では,スペイン語と英語の混在するソーシャルメディアデータを用いた感情分類手法を提案する。
単言語モデルと多言語モデルの両方を標準微調整法を用いて検討する。
2段階の微調整により、ベースモデルよりも感情分類性能が向上するが、大規模多言語XLM-RoBERTaモデルではF1スコアが最適である。
論文 参考訳(メタデータ) (2020-07-24T14:48:27Z) - XD at SemEval-2020 Task 12: Ensemble Approach to Offensive Language
Identification in Social Media Using Transformer Encoders [17.14709845342071]
本稿では,ソーシャルメディアにおける攻撃的言語識別のための最新のトランスフォーマーエンコーダと高性能アンサンブルモデルを用いた6つの文書分類モデルを提案する。
分析の結果,アンサンブルモデルでは開発セットの精度が大幅に向上するが,テストセットの精度はそれほど良くないことがわかった。
論文 参考訳(メタデータ) (2020-07-21T17:03:00Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。