論文の概要: Improving Question Answering Performance Using Knowledge Distillation
and Active Learning
- arxiv url: http://arxiv.org/abs/2109.12662v1
- Date: Sun, 26 Sep 2021 17:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 09:00:07.576199
- Title: Improving Question Answering Performance Using Knowledge Distillation
and Active Learning
- Title(参考訳): 知識蒸留とアクティブラーニングによる質問応答性能の向上
- Authors: Yasaman Boreshban, Seyed Morteza Mirbostani, Gholamreza Ghassem-Sani,
Seyed Abolghasem Mirroshandel, Shahin Amiriparian
- Abstract要約: 本稿では,事前学習したBERTシステムのパラメータとモデル複雑性を低減するために,新しい知識蒸留(KD)手法を提案する。
本モデルでは,TinyBERTとDistilBERTの合計パラメータの2%しか使用せず,6層TinyBERTとDistilBERTの性能を実証する。
- 参考スコア(独自算出の注目度): 6.380750645368325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary question answering (QA) systems, including transformer-based
architectures, suffer from increasing computational and model complexity which
render them inefficient for real-world applications with limited resources.
Further, training or even fine-tuning such models requires a vast amount of
labeled data which is often not available for the task at hand. In this
manuscript, we conduct a comprehensive analysis of the mentioned challenges and
introduce suitable countermeasures. We propose a novel knowledge distillation
(KD) approach to reduce the parameter and model complexity of a pre-trained
BERT system and utilize multiple active learning (AL) strategies for immense
reduction in annotation efforts. In particular, we demonstrate that our model
achieves the performance of a 6-layer TinyBERT and DistilBERT, whilst using
only 2% of their total parameters. Finally, by the integration of our AL
approaches into the BERT framework, we show that state-of-the-art results on
the SQuAD dataset can be achieved when we only use 20% of the training data.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャを含む現代の質問応答(qa)システムでは、計算量とモデルの複雑さが増大し、リソースが限られた実世界のアプリケーションでは効率が低下する。
さらに、そのようなモデルのトレーニングや微調整さえも、手元のタスクでは利用できないような大量のラベル付きデータを必要とします。
本稿では,上記の課題を包括的に分析し,適切な対策を提案する。
本稿では,事前学習したBERTシステムのパラメータとモデルの複雑さを低減し,アノテーションの取り組みを大幅に削減するために複数のアクティブラーニング(AL)戦略を利用する新しい知識蒸留(KD)手法を提案する。
特に,本モデルでは,6層TinyBERTとDistilBERTの合計パラメータの2%しか使用せず,その性能を実証する。
最後に、BERTフレームワークへのALアプローチの統合により、トレーニングデータの20%しか使用していない場合、SQuADデータセットの最先端結果が達成可能であることを示す。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - ActKnow: Active External Knowledge Infusion Learning for Question
Answering in Low Data Regime [7.562843347215286]
知識グラフ(KG)をベースとした「オンデマンド」から質問回答(QA)の学習に積極的に知識を注入する手法を提案する。
我々は、低データ構造におけるRoBERTaのような純粋テキストベースのトランスフォーマーモデルに対して、ARC Challenge-setベンチマークを著しく改善したことを示す。
論文 参考訳(メタデータ) (2021-12-17T10:39:41Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。