論文の概要: Turning transformer attention weights into zero-shot sequence labelers
- arxiv url: http://arxiv.org/abs/2103.14465v1
- Date: Fri, 26 Mar 2021 13:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 16:38:34.447583
- Title: Turning transformer attention weights into zero-shot sequence labelers
- Title(参考訳): 変圧器の注意重みをゼロショットシーケンスラベラーに変える
- Authors: Kamil Bujel, Helen Yannakoudakis, Marek Rei
- Abstract要約: 文レベルのトランスフォーマーをトークンレベルで効果的なシーケンスラベラーに変更する方法を,直接の監督なしに示す。
トークンレベルのラベルを生成するための多種多様な提案手法と比較し、単純で効果的に修正された注目層を示す。
- 参考スコア(独自算出の注目度): 26.53225923146635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate how transformer-based models can be redesigned in order to
capture inductive biases across tasks on different granularities and perform
inference in a zero-shot manner. Specifically, we show how sentence-level
transformers can be modified into effective sequence labelers at the token
level without any direct supervision. We compare against a range of diverse and
previously proposed methods for generating token-level labels, and present a
simple yet effective modified attention layer that significantly advances the
current state of the art.
- Abstract(参考訳): 異なる粒度でタスク間の帰納的バイアスを捉え、ゼロショットで推論を行うために、トランスフォーマティブベースのモデルをどのように再設計できるかを実証する。
具体的には,文レベルのトランスフォーマーをトークンレベルで効果的なシーケンスラベラーに変更する方法を,直接の監督なしに示す。
トークンレベルのラベルを生成するために提案されている多種多様な手法と比較し,現在の技術を大きく進歩させるシンプルかつ効果的な注意層を提案する。
関連論文リスト
- Looking Beyond The Top-1: Transformers Determine Top Tokens In Order [13.032106683136394]
トップ1予測が修正された後、トランスフォーマーが層内で行う計算を解析する。
これらの飽和事象は、対応するトークンのランクの順に発生する。
この逐次飽和に対するタスク遷移のメカニズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T16:00:38Z) - Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - Continual Transformers: Redundancy-Free Attention for Online Inference [86.3361797111839]
連続的な入力ストリームにおいて、トランスフォーマーが効率的なオンライントークン・バイ・トケン推論を行うことができるスケールド・ドット・プロダクト・アテンション(Scaled Dot-Product Attention)の新たな定式化を提案する。
我々の修正は純粋に計算順に行われ、生成した出力と学習重量は元のマルチヘッド注意のものと同一である。
論文 参考訳(メタデータ) (2022-01-17T08:20:09Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。