論文の概要: MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning
- arxiv url: http://arxiv.org/abs/2403.06914v2
- Date: Tue, 12 Mar 2024 15:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:24:14.958204
- Title: MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning
- Title(参考訳): MEND: 効果的なインコンテキスト学習のためのメタdEmonstratioN蒸留
- Authors: Yichuan Li, Xiyao Ma, Sixing Lu, Kyumin Lee, Xiaohu Liu, Chenlei Guo
- Abstract要約: 大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。
既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。
本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
- 参考スコア(独自算出の注目度): 9.271196993624944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language models (LLMs) have demonstrated impressive in-context learning
(ICL) capabilities, where a LLM makes predictions for a given test input
together with a few input-output pairs (demonstrations). Nevertheless, the
inclusion of demonstrations leads to a quadratic increase in the computational
overhead of the self-attention mechanism. Existing solutions attempt to distill
lengthy demonstrations into compact vectors. However, they often require
task-specific retraining or compromise LLM's in-context learning performance.
To mitigate these challenges, we present Meta dEmonstratioN Distillation
(MEND), where a language model learns to distill any lengthy demonstrations
into vectors without retraining for a new downstream task. We exploit the
knowledge distillation to enhance alignment between MEND and LLM, achieving
both efficiency and effectiveness simultaneously. MEND is endowed with the
meta-knowledge of distilling demonstrations through a two-stage training
process, which includes meta-distillation pretraining and fine-tuning.
Comprehensive evaluations across seven diverse ICL task partitions using
decoder-only (GPT-2) and encoder-decoder (T5) attest to MEND's prowess. It not
only matches but often outperforms the Vanilla ICL as well as other
state-of-the-art distillation models, while significantly reducing the
computational demands. This innovation promises enhanced scalability and
efficiency for the practical deployment of large language models
- Abstract(参考訳): 大規模言語モデル(llm)は、いくつかの入出力ペア(デーモンストレーション)とともに、llmが与えられたテスト入力の予測を行う、印象的なインコンテキスト学習(icl)能力を示している。
それでも、デモを含めることで、自己認識機構の計算オーバーヘッドが2次的に増加する。
既存の解は、長いデモをコンパクトベクトルに蒸留しようとする。
しかし、それらはしばしばタスク固有のリトレーニングやllmのコンテキスト内学習性能の妥協を必要とする。
これらの課題を緩和するために、言語モデルが新しい下流タスクをリトレーニングすることなく、長いデモをベクトルに蒸留することを学ぶメタデモ蒸留(mend)を提案する。
MEND と LLM のアライメントを高めるために知識蒸留を活用し,効率と有効性を両立させる。
MENDには、メタ蒸留前訓練と微調整を含む2段階のトレーニングプロセスを通じて、蒸留実験のメタ知識が与えられている。
Decoder-only (GPT-2) と encoder-decoder (T5) を用いて、7つの多様な ICL タスクパーティションの総合評価を行った。
マッチするだけでなく、しばしばバニラICLや最先端の蒸留モデルよりも優れ、計算要求を大幅に減少させる。
この革新は、大規模言語モデルの実践的展開のための拡張スケーラビリティと効率を約束する
関連論文リスト
- CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。
LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文 参考訳(メタデータ) (2024-03-14T15:30:14Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。