論文の概要: Accurate Knowledge Distillation with n-best Reranking
- arxiv url: http://arxiv.org/abs/2305.12057v2
- Date: Tue, 14 Nov 2023 21:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:38:40.297960
- Title: Accurate Knowledge Distillation with n-best Reranking
- Title(参考訳): n-best再分類による正確な知識蒸留
- Authors: Hendra Setiawan
- Abstract要約: 我々は,n-best re rankを活用してシーケンスレベル知識蒸留を強化することを提案する(Kim and Rush, 2016)。
私たちは、さまざまな帰納バイアス、客観的関数、アーキテクチャを持つ多様なモデルのセットを活用します。
その結果,n-bestリランカが生成した擬似ラベルを利用することで,より正確な学生モデルが得られた。
- 参考スコア(独自算出の注目度): 2.9526110883017433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose utilizing n-best reranking to enhance the Sequence-Level Knowledge
Distillation (Kim and Rush, 2016) where we explore hypotheses beyond the top-1
to acquire more accurate pseudo-labels. To accomplish this, we leverage a
diverse set of models with different inductive biases, objective functions or
architectures, including publicly-available large pretrained models. The
effectiveness of our proposal is validated through experiments on the WMT'21
German-English and Chinese-English translation tasks. Our results demonstrate
that utilizing the pseudo-labels generated by our n-best reranker leads to a
significantly more accurate student model. In fact, our best student model
achieves comparable accuracy to a large translation model from (Tran et al.,
2021) with 4.7 billion parameters, while having two orders of magnitude fewer
parameters.
- Abstract(参考訳): 我々は,n-best re rankを活用してシーケンスレベル知識蒸留(Kim and Rush, 2016)を強化し,トップ-1を超える仮説を探索し,より正確な擬似ラベルを取得することを提案する。
これを達成するために、我々は、様々な帰納バイアス、客観的関数またはアーキテクチャを持つ多様なモデルの集合を利用する。
提案手法の有効性は、WMT'21ドイツ語と中国語の翻訳タスクの実験を通して検証される。
その結果,n-bestリランカが生成した擬似ラベルを利用することで,より正確な学生モデルが得られた。
実際、私たちのベストな学生モデルは、470億のパラメータを持つ(tran et al., 2021)大きな翻訳モデルと同等の精度を実現しています。
関連論文リスト
- BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - UU-Tax at SemEval-2022 Task 3: Improving the generalizability of
language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。
タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。
より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-10-07T07:41:28Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Selective Knowledge Distillation for Neural Machine Translation [24.493705133103443]
知識蒸留は、各トレーニングサンプルについて教師モデルの知識を伝達することにより、モデルの性能を高めるために広く適用されている。
従来の研究は、教師の知識を伝達する媒体として機能する、これらのサンプル間の異なる影響とつながりについてはほとんど議論しなかった。
本稿では, 蒸留に適した試料を選択するために, バッチレベルとグローバルレベルの2つの簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-27T06:54:12Z) - Are Larger Pretrained Language Models Uniformly Better? Comparing
Performance at the Instance Level [38.64433236359172]
BERT-Largeは、MNLI、SST-2、QQPのインスタンスの少なくとも1~4%でBERT-Miniよりも悪い。
ファインタニングノイズはモデルサイズとともに増加し、そのインスタンスレベルの精度は運動量を持つ。
以上の結果から,インスタンスレベルの予測は豊富な情報源を提供することが示唆された。
論文 参考訳(メタデータ) (2021-05-13T01:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。