論文の概要: Distillation of encoder-decoder transformers for sequence labelling
- arxiv url: http://arxiv.org/abs/2302.05454v1
- Date: Fri, 10 Feb 2023 19:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 20:14:14.061540
- Title: Distillation of encoder-decoder transformers for sequence labelling
- Title(参考訳): シーケンスラベリングのためのエンコーダ・デコーダ変換器の蒸留
- Authors: Marco Farina, Duccio Pappadopulo, Anant Gupta, Leslie Huang, Ozan
\.Irsoy, Thamar Solorio
- Abstract要約: 本稿では,特に蒸留に適したシーケンスタグ付けのための幻覚フリーフレームワークを提案する。
複数のシーケンスラベリングデータセットにまたがる新しい最先端性能の実証結果を示す。
- 参考スコア(独自算出の注目度): 14.556303844376425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by encouraging results on a wide range of tasks, the field of NLP is
experiencing an accelerated race to develop bigger language models. This race
for bigger models has also underscored the need to continue the pursuit of
practical distillation approaches that can leverage the knowledge acquired by
these big models in a compute-efficient manner. Having this goal in mind, we
build on recent work to propose a hallucination-free framework for sequence
tagging that is especially suited for distillation. We show empirical results
of new state-of-the-art performance across multiple sequence labelling datasets
and validate the usefulness of this framework for distilling a large model in a
few-shot learning scenario.
- Abstract(参考訳): 幅広いタスクの結果を奨励することで、nlpの分野はより大きな言語モデルを開発するための競争が加速している。
大型モデルのこのレースは、これらの大型モデルが獲得した知識を計算効率よく活用できる実用的な蒸留手法の追求を継続する必要性も強調している。
この目的を念頭に置いて,最近の研究として,特に蒸留に適した配列タグ付けのための幻覚を含まないフレームワークを提案する。
複数のシーケンスラベリングデータセットにまたがる新しい最先端性能の実証結果を示し、このフレームワークが大規模モデルを数ショットの学習シナリオで蒸留する有用性を検証する。
関連論文リスト
- EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Is Tokenization Needed for Masked Particle Modelling? [8.79008927474707]
Masked Particle Modeling (MPM) は、無順序集合の表現表現を構築するための自己教師付き学習スキームである。
実装における非効率に対処し、より強力なデコーダを組み込むことにより、MPMを改善する。
これらの新しい手法は、ジェットの基礎モデルのための新しいテストベッドにおいて、オリジナルのMPMからのトークン化学習目標よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-19T09:12:29Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval [44.61221990245263]
ハッシュの学習は、高速な検索速度と低ストレージコストを提供する、効率的な検索のための実用的なソリューションである。
本研究は, 学習能力の向上と, 強力な事前学習モデルの普及を両立させる可能性を探るものである。
ハッシュ表現学習を改善するために,DCMQ (Distillation for Cross-Modal Quantization) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T15:54:59Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - DICE: Diverse Diffusion Model with Scoring for Trajectory Prediction [7.346307332191997]
本稿では,拡散モデルを用いて将来の軌跡を計算的に効率的に予測するフレームワークを提案する。
提案手法は, 試料軌道数を最大化し, 精度を向上させるための効率的なサンプリング機構である。
本研究では,一般歩行者(UCY/ETH)と自律走行(nuScenes)のベンチマークデータを用いて,経験的評価を行うことによるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T05:04:23Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。