論文の概要: Distillation of encoder-decoder transformers for sequence labelling
- arxiv url: http://arxiv.org/abs/2302.05454v1
- Date: Fri, 10 Feb 2023 19:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 20:14:14.061540
- Title: Distillation of encoder-decoder transformers for sequence labelling
- Title(参考訳): シーケンスラベリングのためのエンコーダ・デコーダ変換器の蒸留
- Authors: Marco Farina, Duccio Pappadopulo, Anant Gupta, Leslie Huang, Ozan
\.Irsoy, Thamar Solorio
- Abstract要約: 本稿では,特に蒸留に適したシーケンスタグ付けのための幻覚フリーフレームワークを提案する。
複数のシーケンスラベリングデータセットにまたがる新しい最先端性能の実証結果を示す。
- 参考スコア(独自算出の注目度): 14.556303844376425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by encouraging results on a wide range of tasks, the field of NLP is
experiencing an accelerated race to develop bigger language models. This race
for bigger models has also underscored the need to continue the pursuit of
practical distillation approaches that can leverage the knowledge acquired by
these big models in a compute-efficient manner. Having this goal in mind, we
build on recent work to propose a hallucination-free framework for sequence
tagging that is especially suited for distillation. We show empirical results
of new state-of-the-art performance across multiple sequence labelling datasets
and validate the usefulness of this framework for distilling a large model in a
few-shot learning scenario.
- Abstract(参考訳): 幅広いタスクの結果を奨励することで、nlpの分野はより大きな言語モデルを開発するための競争が加速している。
大型モデルのこのレースは、これらの大型モデルが獲得した知識を計算効率よく活用できる実用的な蒸留手法の追求を継続する必要性も強調している。
この目的を念頭に置いて,最近の研究として,特に蒸留に適した配列タグ付けのための幻覚を含まないフレームワークを提案する。
複数のシーケンスラベリングデータセットにまたがる新しい最先端性能の実証結果を示し、このフレームワークが大規模モデルを数ショットの学習シナリオで蒸留する有用性を検証する。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - DICE: Diverse Diffusion Model with Scoring for Trajectory Prediction [7.346307332191997]
本稿では,拡散モデルを用いて将来の軌跡を計算的に効率的に予測するフレームワークを提案する。
提案手法は, 試料軌道数を最大化し, 精度を向上させるための効率的なサンプリング機構である。
本研究では,一般歩行者(UCY/ETH)と自律走行(nuScenes)のベンチマークデータを用いて,経験的評価を行うことによるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T05:04:23Z) - Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。
近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。
本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文 参考訳(メタデータ) (2023-06-16T16:30:39Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Squeezing Backbone Feature Distributions to the Max for Efficient
Few-Shot Learning [3.1153758106426603]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。
本稿では,特徴ベクトルをガウス分布に近づけるように処理するトランスファーベース手法を提案する。
また,学習中に未学習のサンプルが利用可能となる多段階的数ショット学習では,達成された性能をさらに向上させる最適なトランスポートインスピレーションアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-10-18T16:29:17Z) - Leaf Segmentation and Counting with Deep Learning: on Model Certainty,
Test-Time Augmentation, Trade-Offs [2.984934409689467]
深い教師付き学習は、セグメンテーションと数え葉でのより良いパフォーマンスモデルを提案する最近の研究で広く使われている。
研究グループによる優れた努力にもかかわらず、より良い方法を提案する主な課題の1つは、ラベル付きデータ可用性の制限である。
論文 参考訳(メタデータ) (2020-12-21T17:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。