論文の概要: HINT: Hypernetwork Instruction Tuning for Efficient Zero- & Few-Shot
Generalisation
- arxiv url: http://arxiv.org/abs/2212.10315v2
- Date: Wed, 24 May 2023 22:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:06:32.288882
- Title: HINT: Hypernetwork Instruction Tuning for Efficient Zero- & Few-Shot
Generalisation
- Title(参考訳): HINT: 効率的なゼロ・フルショット一般化のためのハイパーネットワーク命令チューニング
- Authors: Hamish Ivison and Akshita Bhagia and Yizhong Wang and Hannaneh
Hajishirzi and Matthew Peters
- Abstract要約: 最近のNLPモデルは、自然言語指示のみを指導として、ゼロショットを新しいタスクに効果的に一般化する能力を示している。
これらのアプローチは、全ての入力例と長い命令の連結に依存するため、高い計算コストに悩まされる。
本稿では,Hypernetworks for Instruction Tuning (HINT)を紹介し,タスク命令や例をパラメータ効率のよいモジュールに変換する。
- 参考スコア(独自算出の注目度): 35.46498221255787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent NLP models have shown the remarkable ability to effectively generalise
`zero-shot' to new tasks using only natural language instructions as guidance.
However, many of these approaches suffer from high computational costs due to
their reliance on concatenating lengthy instructions with every input example,
resulting in costly reprocessing of the instruction. To avoid this, we
introduce Hypernetworks for INstruction Tuning (HINT), which convert task
instructions and examples into parameter-efficient modules inserted into an
underlying model using a pretrained text encoder, eliminating the need to
include instructions in the model input. The hypernetwork in HINT also produces
an encoded instruction, which we concatenate with encoded inputs during
decoding to further improve performance. HINT models outperform strong
state-of-the-art baselines by over 10% when controlling for compute (measured
in FLOPs). By converting instructions into modules, HINT models can effectively
disregard the length of instructions and few-shot example inputs in terms of
compute usage. As a result, HINT can enhance its performance by up to 25% by
incorporating additional few-shot data, while utilizing only up to 5% more
compute. This combines the strengths of parameter-efficient fine-tuning and
in-context learning.
- Abstract(参考訳): 近年のNLPモデルは「ゼロショット」を自然言語指示のみをガイダンスとして新しいタスクに効果的に一般化する能力を示している。
しかし、これらのアプローチの多くは、全ての入力例と長い命令の連結に依存するため、高い計算コストに悩まされ、結果として命令の再処理にコストがかかる。
これを回避するために,HINT (Hypernetworks for Instruction Tuning) を導入し,タスク命令と例を事前訓練されたテキストエンコーダを用いて基礎モデルに挿入したパラメータ効率のよいモジュールに変換し,モデル入力に命令を含める必要をなくした。
ヒントのハイパーネットワークもエンコード命令を生成し、デコード中にエンコードされた入力と結合することで、パフォーマンスをさらに向上させます。
HINTモデルは、計算(FLOPで測定される)の制御において、強い最先端のベースラインを10%以上上回る。
命令をモジュールに変換することで、HINTモデルは計算使用量の観点から命令の長さやサンプル入力を効果的に無視することができる。
その結果、ヒントは5%の計算量しか利用せずに、追加の少ないデータによって最大25%の性能を向上させることができる。
これはパラメータ効率の良い微調整とコンテキスト内学習の強みを組み合わせる。
関連論文リスト
- Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models [0.0]
本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
論文 参考訳(メタデータ) (2024-05-21T06:26:10Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。