論文の概要: Mixed-effects transformers for hierarchical adaptation
- arxiv url: http://arxiv.org/abs/2205.01749v1
- Date: Tue, 3 May 2022 19:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:31:01.487090
- Title: Mixed-effects transformers for hierarchical adaptation
- Title(参考訳): 階層適応のための混合効果変換器
- Authors: Julia White and Noah Goodman and Robert Hawkins
- Abstract要約: 本稿では,階層的に構造化されたプレフィックスを学習するための新しいアプローチであるMulti-Efects Transformer(MET)を紹介する。
一般的な混合効果モデルのクラスがトランスフォーマーベースのアーキテクチャにどのように拡張されるかを示す。
- 参考スコア(独自算出の注目度): 1.9105318290910576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language use differs dramatically from context to context. To some degree,
modern language models like GPT-3 are able to account for such variance by
conditioning on a string of previous input text, or prompt. Yet prompting is
ineffective when contexts are sparse, out-of-sample, or extra-textual; for
instance, accounting for when and where the text was produced or who produced
it. In this paper, we introduce the mixed-effects transformer (MET), a novel
approach for learning hierarchically-structured prefixes -- lightweight modules
prepended to the input -- to account for structured variation. Specifically, we
show how the popular class of mixed-effects models may be extended to
transformer-based architectures using a regularized prefix-tuning procedure
with dropout. We evaluate this approach on several domain-adaptation
benchmarks, finding that it efficiently adapts to novel contexts with minimal
data while still effectively generalizing to unseen contexts.
- Abstract(参考訳): 言語の使用は文脈によって劇的に異なる。
ある程度、gpt-3のような現代の言語モデルは、以前の入力テキストの文字列やプロンプトを条件付けすることで、そのようなばらつきを考慮できる。
しかし、コンテキストが疎かったり、サンプル外だったり、テキストがいつどこで作成されたか、誰が生成したかなど、プロンプトは効果がない。
本稿では,階層的に構造化されたプレフィックス(入力に前置した軽量モジュール)を学習するための新しい手法であるMixed-effects Transformer(MET)を紹介する。
具体的には,混合効果モデルの一般的なクラスを,ドロップアウトを伴う正規化プレフィックスチューニング手順を用いてトランスフォーマティブベースのアーキテクチャに拡張する方法を示す。
このアプローチをいくつかのドメイン適応ベンチマークで評価し、最小限のデータを持つ新しいコンテキストに効率よく適応すると同時に、見当たらないコンテキストに効果的に適応することを示した。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Attention over pre-trained Sentence Embeddings for Long Document
Classification [4.38566347001872]
変圧器はトークンの数に2次注意の複雑さがあるため、短いシーケンスに制限されることが多い。
文を意味的に意味のある埋め込みから始めるために,事前学習した文変換器を活用することを提案する。
本稿では,3つの標準文書分類データセットに対して,この簡単なアーキテクチャを用いて得られた結果について報告する。
論文 参考訳(メタデータ) (2023-07-18T09:06:35Z) - Meta-Learning the Difference: Preparing Large Language Models for
Efficient Adaptation [11.960178399478718]
大規模な事前訓練言語モデル(PLM)は、しばしば細調整やプロンプトによってドメインまたはタスク適応される。
その代わりに、一般と適応のPLMの違いを学習することで、データおよびパラメータ効率の適応のためのPLMを作成する。
論文 参考訳(メタデータ) (2022-07-07T18:00:22Z) - Paragraph-based Transformer Pre-training for Multi-Sentence Inference [99.59693674455582]
マルチ候補推論タスクの微調整に使用する場合,一般的な事前学習型トランスフォーマーは性能が良くないことを示す。
次に、複数の入力文にまたがる段落レベルの意味をモデル化する新しい事前学習目標を提案する。
論文 参考訳(メタデータ) (2022-05-02T21:41:14Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Revisiting Transformer-based Models for Long Document Classification [31.60414185940218]
実世界のアプリケーションでは、マルチページのマルチパラグラフ文書が一般的であり、バニラトランスフォーマーベースのモデルでは効率的にエンコードできない。
本稿では,変圧器の計算オーバーヘッドを軽減するために,トランスフォーマーを用いた長期文書分類(TrLDC)手法を比較した。
我々は、より長いテキストを処理できることの明確な利点を観察し、その結果に基づいて、長い文書分類タスクにTransformerベースのモデルを適用する実践的なアドバイスを導き出す。
論文 参考訳(メタデータ) (2022-04-14T00:44:36Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。