Fugu-MT 論文翻訳(概要): Transformer-VQ: Linear-Time Transformers via Vector Quantization

論文の概要: Transformer-VQ: Linear-Time Transformers via Vector Quantization

arxiv url: http://arxiv.org/abs/2309.16354v1
Date: Thu, 28 Sep 2023 11:26:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 14:46:30.811173
Title: Transformer-VQ: Linear-Time Transformers via Vector Quantization
Title（参考訳）: Transformer-VQ:ベクトル量子化による線形時間変換器
Authors: Lucas D. Lingle
Abstract要約: Transformer-VQ はデコーダのみの変換器であり、線形時間でソフトマックスベースの高密度自己アテンションを演算する。大規模な実験では、Transformer-VQは品質面で非常に競争力がある。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Transformer-VQ, a decoder-only transformer computing softmax-based dense self-attention in linear time. Transformer-VQ's efficient attention is enabled by vector-quantized keys and a novel caching mechanism. In large-scale experiments, Transformer-VQ is shown highly competitive in quality, with strong results on Enwik8 (0.99 bpb), PG-19 (26.6 ppl), and ImageNet64 (3.16 bpb). Code: https://github.com/transformer-vq/transformer_vq
Abstract（参考訳）: 本稿では,デコーダのみの変換器であるTransformer-VQを紹介する。 Transformer-VQの効率的な注意力はベクトル量子化キーと新しいキャッシュ機構によって実現される。大規模な実験では、Transformer-VQ は Enwik8 (0.99 bpb)、PG-19 (26.6 ppl)、ImageNet64 (3.16 bpb) で非常に競争力がある。コード: https://github.com/transformer-vq/transformer_vq

関連論文リスト

BoostTransformer: Enhancing Transformer Models with Subgrid Selection and Importance Sampling [11.246174442827282]
BoostTransformerは、サブグリッドトークンの選択と重要度の高いサンプリングを通じて、トランスフォーマーを強化します。提案手法はトランスパイプラインに直接最小2乗推進目標を組み込むことで,より効率的なトレーニングと性能向上を実現している。
論文参考訳（メタデータ） (2025-08-04T21:54:16Z)
Two Heads Are Better than One: Simulating Large Transformers with Small Ones [3.514389461266844]
長い入力シーケンスを持つ変換器は、短い入力シーケンスしか持たない変換器で効率的にシミュレートできることを示す。次に、平均ケース入力、スライディングウインドウマスキング、アテンションシンクを含む様々な自然シナリオにおいて、最適数$O(N/M)$の小さな変圧器が十分であることを示す。
論文参考訳（メタデータ） (2025-06-13T20:47:12Z)
Forgetting Transformer: Softmax Attention with a Forget Gate [4.484298224007183]
我々はこの注意機構を Forgetting Attention と Forgetting Transformer (FoX) と命名する。 FoXは、長文言語モデリング、長さ補間、短文下流タスクでTransformerより優れている。 FoXはFlashAttentionアルゴリズムと互換性があり、位置埋め込みを必要としない。
論文参考訳（メタデータ） (2025-03-03T23:35:23Z)
iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。 iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文参考訳（メタデータ） (2023-10-10T13:44:09Z)
Linear attention is (maybe) all you need (to understand transformer optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文参考訳（メタデータ） (2023-10-02T10:48:42Z)
ByteTransformer: A High-Performance Transformer Boosted for Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。 ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文参考訳（メタデータ） (2022-10-06T16:57:23Z)
SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。 SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-03-17T19:48:43Z)
Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文参考訳（メタデータ） (2021-11-24T19:53:46Z)
Vis-TOP: Visual Transformer Overlay Processor [9.80151619872144]
Transformerは自然言語処理(NLP)で優れた成果を上げており、コンピュータビジョン(CV)にも拡張し始めている。様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOPを提案する。 Vis-TOPは、全ての視覚変換器モデルの特徴を要約し、3層および2層変換構造を実装している。
論文参考訳（メタデータ） (2021-10-21T08:11:12Z)
Token Shift Transformer for Video Classification [34.05954523287077]
トランスフォーマーは1次元信号と2次元信号の理解において顕著な成功を収める。エンコーダは自然にペアワイズ・セルフアテンションのような計算集約的な操作を含む。本稿では,各トランスエンコーダ内の時間関係をモデル化するためのToken Shift Module(TokShift)を提案する。
論文参考訳（メタデータ） (2021-08-05T08:04:54Z)
Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。 ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文参考訳（メタデータ） (2021-08-03T18:04:31Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Transformer-Based Deep Image Matching for Generalizable Person Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文参考訳（メタデータ） (2021-05-30T05:38:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。