Fugu-MT 論文翻訳(概要): Task-agnostic Distillation of Encoder-Decoder Language Models

論文の概要: Task-agnostic Distillation of Encoder-Decoder Language Models

arxiv url: http://arxiv.org/abs/2305.12330v1
Date: Sun, 21 May 2023 03:35:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 21:10:35.741052
Title: Task-agnostic Distillation of Encoder-Decoder Language Models
Title（参考訳）: エンコーダ・デコーダ言語モデルのタスク非依存蒸留
Authors: Chen Zhang, Yang Yang, Jingang Wang, Dawei Song
Abstract要約: MiniEnDはエンコーダ・デコーダ言語モデルのタスク非依存蒸留法である。我々は,MiniEnDは一般的に有効であり,他の選択肢と比較して競争力があることを示す。
参考スコア（独自算出の注目度）: 14.771020407149908
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Finetuning pretrained language models (LMs) have enabled appealing performance on a diverse array of tasks. The intriguing task-agnostic property has driven a shifted focus from task-specific to task-agnostic distillation of LMs. While task-agnostic, compute-efficient, performance-preserved LMs can be yielded by task-agnostic distillation, previous studies mainly sit in distillation of either encoder-only LMs (e.g., BERT) or decoder-only ones (e.g., GPT) yet largely neglect that distillation of encoder-decoder LMs (e.g., T5) can posit very distinguished behaviors. Frustratingly, we discover that existing task-agnostic distillation methods can fail to handle the distillation of encoder-decoder LMs. To the demand, we explore a few paths and uncover a path named as MiniEnD that successfully tackles the distillation of encoder-decoder LMs in a task-agnostic fashion. We examine MiniEnD on language understanding and abstractive summarization. The results showcase that MiniEnD is generally effective and is competitive compared to other alternatives. We further scale MiniEnD up to distillation of 3B encoder-decoder language models with interpolated distillation. The results imply the opportunities and challenges in distilling large language models (e.g., LLaMA).
Abstract（参考訳）: 微調整事前学習言語モデル(lms)は様々なタスクで魅力的なパフォーマンスを実現している。興味深いタスク非依存性は、タスク特化蒸留からタスク非依存蒸留へと焦点を移した。タスク非依存、計算効率、性能保存のLMはタスク非依存の蒸留によって得られるが、従来の研究は主にエンコーダのみのLM(例えばBERT)またはデコーダのみのLM(例えばGPT)の蒸留に費やされている。既存のタスク非依存蒸留法では,エンコーダ・デコーダLMの蒸留処理に失敗する可能性がある。そこで,本研究では,エンコーダ・デコーダ LM の蒸留にタスク非依存でうまく取り組み,MiniEnD という名前の経路を探索する。言語理解と抽象要約について考察する。結果は、MiniEnDは一般的に有効であり、他の選択肢と比較して競争力があることを示している。補間蒸留による3Bエンコーダ・デコーダ言語モデルの蒸留までMiniEnDを拡大する。結果は、大きな言語モデル(例えば、llama)を蒸留する機会と課題を示している。

関連論文リスト

Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
On Teacher Hacking in Language Model Distillation [61.19867259475047]
我々は,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に起こりうるかどうかを考察する。これは、教師LMがそれ自体が真の分布の完全な近似であるからである。オンラインデータ生成技術は、教師のハッキングを効果的に軽減する。
論文参考訳（メタデータ） (2025-02-04T19:26:28Z)
Extracting Interpretable Task-Specific Circuits from Large Language Models for Faster Inference [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。対象タスクを適切に実行するLLMのサブセットを自動的に抽出する新しい手法を提案する。得られたモデルはかなり小さく、パラメータの数を82.77%まで減らし、(ii)より解釈可能であることを示す。
論文参考訳（メタデータ） (2024-12-20T10:11:44Z)
FADE: A Task-Agnostic Upsampling Operator for Encoder-Decoder Architectures [18.17019371324024]
FADEは、新しくて、プラグアンドプレイで、軽量で、タスクに依存しないアップサンプリングオペレータである。 FADEはタスク非依存であり,多くの密集予測タスクにおいて一貫した性能向上を示す。リージョンとディテールに敏感なタスクの両方で,ロバストな機能アップサンプリングを初めて実施しました。
論文参考訳（メタデータ） (2024-07-18T13:32:36Z)
D2LLM: Decomposed and Distilled Large Language Models for Semantic Search [18.63768158439252]
D2LLMs-Decomposed and Distilled LLMs for semantic search。クロスエンコーダを効率的なバイエンコーダに分解し,マルチヘッド・アテンションとインタラクション・エミュレーション・モジュールによるポーリングと統合する。実験の結果,D2LLMは3つのタスクにまたがるすべての指標において,主要なベースラインを5つ超えていることがわかった。
論文参考訳（メタデータ） (2024-06-25T04:03:04Z)
Transcoders Find Interpretable LLM Feature Circuits [1.4254279830438588]
サブレイヤを通して回路解析を行うためにトランスコーダを用いる新しい手法を提案する。 120M, 410M, 1.4Bパラメータを持つ言語モデル上でトランスコーダを訓練し, 疎さ, 忠実さ, 人間の解釈可能性の観点から, 少なくともSAEに匹敵する性能を示す。
論文参考訳（メタデータ） (2024-06-17T17:49:00Z)
A Systematic Investigation of Distilling Large Language Models into Cross-Encoders for Passage Re-ranking [79.35822270532948]
大規模言語モデル (LLM) から蒸留したクロスエンコーダは、手動でラベル付けされたデータに微調整されたクロスエンコーダよりも効果的であることが多い。我々は新しい蒸留データセットである Rank-DistiLLM を構築し,リリースする。
論文参考訳（メタデータ） (2024-05-13T16:51:53Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文参考訳（メタデータ） (2024-03-11T17:03:04Z)
Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文参考訳（メタデータ） (2023-10-20T06:49:32Z)
Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。 Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文参考訳（メタデータ） (2023-09-25T15:42:18Z)
PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文参考訳（メタデータ） (2023-05-23T10:11:56Z)
Generic-to-Specific Distillation of Masked Autoencoders [119.21281960831651]
マスク付きオートエンコーダによって事前訓練された大型モデルの監督下で, 小型ViTモデルのポテンシャルを活かすため, 汎用型蒸留法(G2SD)を提案する。 G2SDでは、バニラViT-Smallモデルは98.7%、98.1%、99.3%のパフォーマンスを画像分類、オブジェクト検出、セマンティックセグメンテーションのために達成している。
論文参考訳（メタデータ） (2023-02-28T17:13:14Z)
LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。 LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文参考訳（メタデータ） (2022-06-07T14:08:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。