論文の概要: Hyperdecoders: Instance-specific decoders for multi-task NLP
- arxiv url: http://arxiv.org/abs/2203.08304v1
- Date: Tue, 15 Mar 2022 22:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:57:53.005189
- Title: Hyperdecoders: Instance-specific decoders for multi-task NLP
- Title(参考訳): ハイパーデコーダ:マルチタスクnlp用のインスタンス固有デコーダ
- Authors: Hamish Ivison and Matthew E. Peters
- Abstract要約: NLPにおけるマルチタスクのための入力条件付きハイパーネットワークについて検討する。
我々は,エンコーダの出力に条件付きハイパーネットワークを用いて,デコーダのパラメータ効率適応を生成する。
- 参考スコア(独自算出の注目度): 9.244884318445413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate input-conditioned hypernetworks for multi-tasking in NLP,
generating parameter-efficient adaptations for a decoder using a hypernetwork
conditioned on the output of an encoder. This approach produces a unique
decoder for every input instance, allowing the network a larger degree of
flexibility than prior work that specializes the decoder for each task. We
apply our method to sequence classification tasks, extractive QA, and
summarisation and find that it often outperforms fully finetuning the
underlying model and surpasses previous parameter efficient fine-tuning
methods. Gains are particularly large when evaluated out-of-domain on the MRQA
benchmark. In addition, as the pretrained model is frozen, our method
eliminates negative interference among unrelated tasks, a common failure mode
in fully fine-tuned approaches. An analysis of the embeddings produced by our
model suggests that a large benefit of our approach is allowing the encoder
more effective control over the decoder, allowing mapping from hidden
representations to a final text-based label without interference from other
tasks' output formats or labels.
- Abstract(参考訳): NLPにおけるマルチタスクのための入力条件付きハイパーネットについて検討し、エンコーダの出力に条件付きハイパーネットワークを用いてデコーダのパラメータ効率適応を生成する。
このアプローチは、各入力インスタンスに対してユニークなデコーダを生成し、各タスクのデコーダを専門とする以前の作業よりもネットワークの柔軟性を増す。
本手法はシーケンス分類タスク,抽出QA,要約に応用し,基礎となるモデルを完全に微調整し,従来のパラメータ効率のよい微調整手法を超越することが多いことを確かめる。
MRQAベンチマークで評価されたドメイン外でのゲインは特に大きい。
さらに,事前学習モデルが凍結されるにつれて,本手法は非関係なタスク間の負の干渉を排除し,完全に微調整されたアプローチでは共通の障害モードとなる。
我々のモデルが生成した埋め込みの分析は、このアプローチの大きな利点は、エンコーダがデコーダをより効果的に制御できることを示し、隠れた表現から他のタスクの出力フォーマットやラベルに干渉することなく、最終的なテキストベースのラベルへのマッピングを可能にする。
関連論文リスト
- FADE: A Task-Agnostic Upsampling Operator for Encoder-Decoder Architectures [18.17019371324024]
FADEは、新しくて、プラグアンドプレイで、軽量で、タスクに依存しないアップサンプリングオペレータである。
FADEはタスク非依存であり,多くの密集予測タスクにおいて一貫した性能向上を示す。
リージョンとディテールに敏感なタスクの両方で,ロバストな機能アップサンプリングを初めて実施しました。
論文 参考訳(メタデータ) (2024-07-18T13:32:36Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - End-to-End Synthetic Data Generation for Domain Adaptation of Question
Answering Systems [34.927828428293864]
本モデルでは,1つのトランスをベースとしたエンコーダデコーダネットワークをエンドツーエンドにトレーニングし,問合せと問合せの両方を生成する。
簡単に言えば、エンコーダにパスを与え、デコーダに質問と回答トークンをtokenで生成するよう依頼する。
論文 参考訳(メタデータ) (2020-10-12T21:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。