Fugu-MT 論文翻訳(概要): Distillation of encoder-decoder transformers for sequence labelling

論文の概要: Distillation of encoder-decoder transformers for sequence labelling

arxiv url: http://arxiv.org/abs/2302.05454v1
Date: Fri, 10 Feb 2023 19:00:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 20:14:14.061540
Title: Distillation of encoder-decoder transformers for sequence labelling
Title（参考訳）: シーケンスラベリングのためのエンコーダ・デコーダ変換器の蒸留
Authors: Marco Farina, Duccio Pappadopulo, Anant Gupta, Leslie Huang, Ozan \.Irsoy, Thamar Solorio
Abstract要約: 本稿では,特に蒸留に適したシーケンスタグ付けのための幻覚フリーフレームワークを提案する。複数のシーケンスラベリングデータセットにまたがる新しい最先端性能の実証結果を示す。
参考スコア（独自算出の注目度）: 14.556303844376425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Driven by encouraging results on a wide range of tasks, the field of NLP is experiencing an accelerated race to develop bigger language models. This race for bigger models has also underscored the need to continue the pursuit of practical distillation approaches that can leverage the knowledge acquired by these big models in a compute-efficient manner. Having this goal in mind, we build on recent work to propose a hallucination-free framework for sequence tagging that is especially suited for distillation. We show empirical results of new state-of-the-art performance across multiple sequence labelling datasets and validate the usefulness of this framework for distilling a large model in a few-shot learning scenario.
Abstract（参考訳）: 幅広いタスクの結果を奨励することで、nlpの分野はより大きな言語モデルを開発するための競争が加速している。大型モデルのこのレースは、これらの大型モデルが獲得した知識を計算効率よく活用できる実用的な蒸留手法の追求を継続する必要性も強調している。この目的を念頭に置いて,最近の研究として,特に蒸留に適した配列タグ付けのための幻覚を含まないフレームワークを提案する。複数のシーケンスラベリングデータセットにまたがる新しい最先端性能の実証結果を示し、このフレームワークが大規模モデルを数ショットの学習シナリオで蒸留する有用性を検証する。

関連論文リスト

HAD: Hybrid Architecture Distillation Outperforms Teacher in Genomic Sequence Modeling [52.58723853697152]
DNA配列モデリングのためのハイブリッドアーキテクチャ蒸留(HAD)手法を提案する。我々はNTv2-500Mを教師モデルとして採用し,グループマスキング戦略を考案した。類似したパラメータを持つモデルと比較して,本モデルは優れた性能を示した。
論文参考訳（メタデータ） (2025-05-27T07:57:35Z)
Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation [20.67671141789497]
主観駆動型生成のための最初のVARに基づくアプローチを提案する。我々は,言語ドリフトを軽減するため,複雑性を低減し,事前蒸留を行うための選択的層チューニングを導入する。提案手法は, 様々な指標において拡散ベースラインを著しく上回り, その実用性を実証する。
論文参考訳（メタデータ） (2025-04-03T14:12:55Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-03T05:43:24Z)
Is Tokenization Needed for Masked Particle Modelling? [8.79008927474707]
Masked Particle Modeling (MPM) は、無順序集合の表現表現を構築するための自己教師付き学習スキームである。実装における非効率に対処し、より強力なデコーダを組み込むことにより、MPMを改善する。これらの新しい手法は、ジェットの基礎モデルのための新しいテストベッドにおいて、オリジナルのMPMからのトークン化学習目標よりも優れていることを示す。
論文参考訳（メタデータ） (2024-09-19T09:12:29Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval [44.61221990245263]
ハッシュの学習は、高速な検索速度と低ストレージコストを提供する、効率的な検索のための実用的なソリューションである。本研究は, 学習能力の向上と, 強力な事前学習モデルの普及を両立させる可能性を探るものである。ハッシュ表現学習を改善するために,DCMQ (Distillation for Cross-Modal Quantization) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-23T15:54:59Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
DICE: Diverse Diffusion Model with Scoring for Trajectory Prediction [7.346307332191997]
本稿では,拡散モデルを用いて将来の軌跡を計算的に効率的に予測するフレームワークを提案する。提案手法は, 試料軌道数を最大化し, 精度を向上させるための効率的なサンプリング機構である。本研究では,一般歩行者(UCY/ETH)と自律走行(nuScenes)のベンチマークデータを用いて,経験的評価を行うことによるアプローチの有効性を示す。
論文参考訳（メタデータ） (2023-10-23T05:04:23Z)
Learning to Jump: Thinning and Thickening Latent Counts for Generative Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文参考訳（メタデータ） (2023-05-28T05:38:28Z)
IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T17:07:36Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文参考訳（メタデータ） (2022-03-21T18:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。