論文の概要: Harnessing Attention Mechanisms: Efficient Sequence Reduction using
Attention-based Autoencoders
- arxiv url: http://arxiv.org/abs/2310.14837v1
- Date: Mon, 23 Oct 2023 11:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:25:48.641668
- Title: Harnessing Attention Mechanisms: Efficient Sequence Reduction using
Attention-based Autoencoders
- Title(参考訳): 注意機構:アテンションベースオートエンコーダを用いた効率的なシーケンス削減
- Authors: Daniel Biermann, Fabrizio Palumbo, Morten Goodwin, Ole-Christoffer
Granmo
- Abstract要約: 本稿では,シーケンス長を直接操作できる新しいアテンションベース手法を提案する。
オートエンコーダは、元のシーケンスを元のサイズの半分に減らす際に、重要な情報を全て保持していることを示す。
- 参考スコア(独自算出の注目度): 14.25761027376296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning models use the manipulation of dimensions as a driving
force to enable models to identify and learn important features in data. In the
case of sequential data this manipulation usually happens on the token
dimension level. Despite the fact that many tasks require a change in sequence
length itself, the step of sequence length reduction usually happens out of
necessity and in a single step. As far as we are aware, no model uses the
sequence length reduction step as an additional opportunity to tune the models
performance. In fact, sequence length manipulation as a whole seems to be an
overlooked direction. In this study we introduce a novel attention-based method
that allows for the direct manipulation of sequence lengths. To explore the
method's capabilities, we employ it in an autoencoder model. The autoencoder
reduces the input sequence to a smaller sequence in latent space. It then aims
to reproduce the original sequence from this reduced form. In this setting, we
explore the methods reduction performance for different input and latent
sequence lengths. We are able to show that the autoencoder retains all the
significant information when reducing the original sequence to half its
original size. When reducing down to as low as a quarter of its original size,
the autoencoder is still able to reproduce the original sequence with an
accuracy of around 90%.
- Abstract(参考訳): 多くの機械学習モデルは次元の操作を駆動力として使い、モデルがデータの重要な特徴を識別し学習できるようにする。
シーケンシャルデータの場合、この操作は通常トークン次元のレベルで行われる。
多くのタスクがシーケンス長自体を変更する必要があるにもかかわらず、シーケンス長の削減のステップは通常、必要から1ステップで発生する。
認識している限り、モデルのパフォーマンスを調整する追加の機会としてシーケンス長削減ステップを使用するモデルはありません。
実際、シーケンス長の操作は全体として見過ごされた方向のようだ。
本研究では,配列長の直接操作を可能にする新しい注意に基づく手法を提案する。
提案手法の能力を探索するために,オートエンコーダモデルを用いた。
オートエンコーダは入力シーケンスを潜在空間内の小さなシーケンスに縮小する。
その後、この縮小された形式から元の配列を再現することを目指している。
そこで本研究では,入力列長と潜時列長の異なる手法の削減性能について検討する。
オートエンコーダは、元のシーケンスを元のサイズの半分に減らす際に、重要な情報を全て保持していることを示すことができる。
元のサイズの4分の1まで削減した場合、オートエンコーダは元のシーケンスを90%の精度で再現することができる。
関連論文リスト
- CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - Breaking the Attention Bottleneck [0.0]
本稿では,注意やアクティベーションの代替として生成機能を開発する。
それぞれのトークンと前のトークンを比較することで、自動回帰文字を持つ。
注意の置き換えという概念は、https://gitlab.com/Bachstelzecausal_generationでAGPL v3ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2024-06-16T12:06:58Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Are We Using Autoencoders in a Wrong Way? [3.110260251019273]
オートエンコーダは次元減少、異常検出、特徴抽出に使用される。
潜在空間の形状を変更する不完全なオートエンコーダの標準トレーニングを再考した。
また,データセット全体からランダムサンプルを再構成する場合の潜伏空間の挙動についても検討した。
論文 参考訳(メタデータ) (2023-09-04T11:22:43Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Staircase Attention for Recurrent Processing of Sequences [34.53670631387504]
ステアケースアテンションは、他の処理ステップを追加して入力を(時間内に)繰り返し処理する。
この再発により、従来のトランスフォーマーでは不可能なタスクを追跡することができる。
大規模言語モデリングや対話タスクにおける自己拡張型トランスフォーマーと比較して,同じサイズモデル(パラメータ数)のモデリング能力が向上し,パープレキシティが大幅に向上することが示されている。
論文 参考訳(メタデータ) (2021-06-08T12:19:31Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Sequence-to-Sequence Imputation of Missing Sensor Data [1.9036571490366496]
センサデータの欠落を回復するためのシーケンス・ツー・シーケンス・モデルを開発した。
前方RNNは、行方不明シーケンスの前に観測されたデータを符号化し、後方RNNは行方不明シーケンス後に観測されたデータを符号化する。
デコーダは、2つのエンコーダを新しい方法で復号し、欠落したデータを予測する。
論文 参考訳(メタデータ) (2020-02-25T09:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。