論文の概要: Input-length-shortening and text generation via attention values
- arxiv url: http://arxiv.org/abs/2303.07585v1
- Date: Tue, 14 Mar 2023 02:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:43:57.081861
- Title: Input-length-shortening and text generation via attention values
- Title(参考訳): 注意値による入力長短縮とテキスト生成
- Authors: Ne\c{s}et \"Ozkan Tan, Alex Yuxuan Peng, Joshua Bensemann, Qiming Bao,
Tim Hartill, Mark Gahegan, Michael Witbrock
- Abstract要約: 我々は,第1層の注意和が,与えられたシーケンス内のトークンをフィルタリングするのに有効であることを示す。
また、元のシーケンスの約6%を保持するだけで86.5%の精度が得られることを示す。
- 参考スコア(独自算出の注目度): 1.8222946691865871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying words that impact a task's performance more than others is a
challenge in natural language processing. Transformers models have recently
addressed this issue by incorporating an attention mechanism that assigns
greater attention (i.e., relevance) scores to some words than others. Because
of the attention mechanism's high computational cost, transformer models
usually have an input-length limitation caused by hardware constraints. This
limitation applies to many transformers, including the well-known bidirectional
encoder representations of the transformer (BERT) model. In this paper, we
examined BERT's attention assignment mechanism, focusing on two questions: (1)
How can attention be employed to reduce input length? (2) How can attention be
used as a control mechanism for conditional text generation? We investigated
these questions in the context of a text classification task. We discovered
that BERT's early layers assign more critical attention scores for text
classification tasks compared to later layers. We demonstrated that the first
layer's attention sums could be used to filter tokens in a given sequence,
considerably decreasing the input length while maintaining good test accuracy.
We also applied filtering, which uses a compute-efficient semantic similarities
algorithm, and discovered that retaining approximately 6\% of the original
sequence is sufficient to obtain 86.5\% accuracy. Finally, we showed that we
could generate data in a stable manner and indistinguishable from the original
one by only using a small percentage (10\%) of the tokens with high attention
scores according to BERT's first layer.
- Abstract(参考訳): タスクのパフォーマンスに他よりも影響を及ぼす単語を特定することは、自然言語処理における課題である。
トランスフォーマーモデルは近年この問題に対処し、注意力(すなわち関連性)のスコアを他の単語よりも多く割り当てるアテンションメカニズムを導入している。
注意機構の計算コストが高いため、トランスフォーマーモデルは通常、ハードウェアの制約によって引き起こされる入力長制限を持つ。
この制限は、変圧器(BERT)モデルのよく知られた双方向エンコーダ表現を含む多くの変圧器に適用される。
本稿では,BERTの注意割当メカニズムについて検討し,(1)入力長の削減にどのように注意を向けられるかという2つの質問に焦点をあてた。
2) 条件付きテキスト生成の制御メカニズムとして注意をどう利用できるか?
これらの質問をテキスト分類タスクの文脈で検討した。
BERTの初期レイヤは、テキスト分類タスクに対して、後のレイヤよりも重要な注意点を割り当てていることがわかった。
我々は,第1層の注意和を用いて,所定のシーケンス内のトークンをフィルタリングし,良好なテスト精度を維持しつつ,入力長を著しく低減できることを示した。
また,計算効率の高い意味的類似性アルゴリズムを用いたフィルタリングを適用し,約6\%の配列を保持することで86.5\%の精度が得られることを確認した。
最後に,bertの第1層に従って注意スコアの高いトークンのごく一部 (10 %) のみを用いて,データの安定な生成が可能であり,元のトークンとは区別がつかないことを示す。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Only 5\% Attention Is All You Need: Efficient Long-range Document-level
Neural Machine Translation [70.87670058323239]
文書レベルの文脈情報を導入することにより,談話現象を扱う上で,文書レベルのニューラルネットワーク翻訳(DocNMT)が重要であることが証明されている。
最も重要な方向の1つは、ドキュメント全体を標準のTransformerモデルに直接入力することである。
本研究は,少量のトークンを選択する軽量注意に基づく追加の選択層を導入することにより,翻訳性能を20%向上させながら維持する。
論文 参考訳(メタデータ) (2023-09-25T14:33:47Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - The Topological BERT: Transforming Attention into Topology for Natural
Language Processing [0.0]
本稿では,トポロジカルデータ解析を用いたテキスト分類器を提案する。
我々は、その分類器への唯一の入力として、BERTのアテンションマップをアテンショングラフに変換する。
このモデルは、スパムとハムメッセージの区別、文が文法的に正しいかどうかの認識、あるいは映画レビューを否定的あるいは肯定的な評価といったタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-30T11:25:31Z) - Smart Bird: Learnable Sparse Attention for Efficient and Effective
Transformer [51.79399904527525]
学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。
Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。
次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
論文 参考訳(メタデータ) (2021-08-20T14:22:00Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。