論文の概要: HINT: Hypernetwork Instruction Tuning for Efficient Zero-Shot
Generalisation
- arxiv url: http://arxiv.org/abs/2212.10315v1
- Date: Tue, 20 Dec 2022 15:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:40:23.267337
- Title: HINT: Hypernetwork Instruction Tuning for Efficient Zero-Shot
Generalisation
- Title(参考訳): HINT: 効率的なゼロショット一般化のためのハイパーネットワーク命令チューニング
- Authors: Hamish Ivison and Akshita Bhagia and Yizhong Wang and Hannaneh
Hajishirzi and Matthew Peters
- Abstract要約: Instruction Tuning用のHypernetworksは、タスク命令と例を、下層のモデルに挿入されたパラメータ効率のよいモジュールに変換する。
HINTモデルはより計算効率が良く、所定の推論予算に対して一貫してこれらのアプローチを上回ります。
- 参考スコア(独自算出の注目度): 35.46498221255787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent NLP models have the great ability to generalise `zero-shot' to new
tasks using only an instruction as guidance. However, these approaches usually
repeat their instructions with every input, requiring costly reprocessing of
lengthy instructions for every inference example. To alleviate this, we
introduce Hypernetworks for INstruction Tuning (HINT), which convert task
instructions and examples using a pretrained text encoder into
parameter-efficient modules inserted into an underlying model, eliminating the
need to include instructions in the model input. Compared to prior approaches
that concatenate instructions with every input instance, we find that HINT
models are significantly more compute-efficient and consistently outperform
these approaches for a given inference budget.
- Abstract(参考訳): 近年のNLPモデルでは、指示を指導としてのみ使用して「ゼロショット」を新しいタスクに一般化する能力がある。
しかし、これらのアプローチは通常全ての入力で命令を繰り返し、推論例ごとに長い命令を再処理する必要がある。
これを軽減するために,HINT(Hypernetworks for Instruction Tuning)を導入し,事前学習したテキストエンコーダを使ってタスク命令や例をパラメータ効率のよいモジュールに変換し,モデル入力に命令を組み込む必要をなくした。
すべての入力インスタンスと命令を結合する従来のアプローチと比較すると、HINTモデルは計算効率が著しく良く、所定の推論予算のためにこれらのアプローチよりも一貫して優れています。
関連論文リスト
- Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models [0.0]
本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
論文 参考訳(メタデータ) (2024-05-21T06:26:10Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。