Fugu-MT 論文翻訳(概要): LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions

論文の概要: LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions

arxiv url: http://arxiv.org/abs/2405.13046v1
Date: Sat, 18 May 2024 22:23:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 04:41:59.074482
Title: LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions
Title（参考訳）: LeaPformer: 学習された確率による自動回帰タスクと同時タスクのための線形変換器の実現
Authors: Victor Agostinelli, Sanghyun Hong, Lizhong Chen,
Abstract要約: 最先端の再重み付け関数は、ターゲットシーケンスの長さに大きく依存する。本稿ではLearnered Proportions(LeaP)とLeaPformersを提案する。
参考スコア（独自算出の注目度）: 7.478336691707095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A promising approach to preserving model performance in linearized transformers is to employ position-based re-weighting functions. However, state-of-the-art re-weighting functions rely heavily on target sequence lengths, making it difficult or impossible to apply them to autoregressive and simultaneous tasks, where the target and sometimes even the input sequence length are unknown. To address this issue, we propose Learned Proportions (LeaP) and LeaPformers. Our contribution is built on two major components. First, we generalize the dependence on explicit positional representations and sequence lengths into dependence on sequence proportions for re-weighting. Second, we replace static positional representations with dynamic proportions derived via a compact module, enabling more flexible attention concentration patterns. We evaluate LeaPformer against eight representative efficient transformers on the Long-Range Arena benchmark, showing that LeaPformer achieves the best quality-throughput trade-off, as well as LeaPformer to Wikitext-103 autoregressive language modeling and simultaneous speech-to-text translation for two language pairs, achieving competitive results.
Abstract（参考訳）: 線形変換器におけるモデル性能を維持するための有望なアプローチは、位置ベース再重み付け関数を採用することである。しかし、最先端の再重み付け関数はターゲットのシーケンス長に大きく依存しているため、ターゲットと場合によっては入力シーケンス長が不明な自動回帰および同時タスクに適用することは困難または不可能である。この問題に対処するため,Learnered Proportions (LeaP) とLeaPformersを提案する。私たちのコントリビューションは2つの主要なコンポーネントの上に構築されています。まず、明示的な位置表現とシーケンス長への依存を、再重み付けのためのシーケンス比への依存に一般化する。第二に、静的な位置表現をコンパクトなモジュールによって導出される動的比例に置き換えることで、より柔軟な注意集中パターンを実現する。我々はLeaPformerをLong-Range Arenaベンチマークの8つの代表的効率変換器に対して評価し、LeaPformerが最高の品質とスループットのトレードオフを達成し、LeaPformerはWikitext-103の自動回帰言語モデリングと2つの言語対の音声とテキストの同時変換を実現し、競争力のある結果が得られることを示した。

関連論文リスト

Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。 DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。 DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文参考訳（メタデータ） (2025-08-01T17:56:07Z)
Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving [1.9508863993381267]
トランスフォーマーは、今日のLarge Language Models(LLM)の原動力であり、そのパフォーマンスと汎用性の基盤となっている。これに対し、アルゴリズムコミュニティはステートスペースモデル(SSM)、線形アテンション、リカレントニューラルネットワーク(RNN)などの代替アーキテクチャを模索している。
論文参考訳（メタデータ） (2025-07-14T11:40:17Z)
SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文参考訳（メタデータ） (2025-06-16T09:16:40Z)
Adaptive Two Sided Laplace Transforms: A Learnable, Interpretable, and Scalable Replacement for Self-Attention [0.0]
本稿では,従来の自己注意をトランスフォーマーベースLLMに置き換える,革新的で学習可能な2面短時間ラプラス変換(STLT)機構を提案する。我々のSTLTは各Laplaceノードに対してトレーニング可能なパラメータを導入し、崩壊率のエンドツーエンド学習を可能にした。さらに、効率の良いFFTベースの関係行列計算と適応ノード割り当て機構を組み込んで、アクティブなLaplaceノードの数を動的に調整する。
論文参考訳（メタデータ） (2025-06-01T00:32:24Z)
PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文参考訳（メタデータ） (2025-05-22T08:36:09Z)
Context-Scaling versus Task-Scaling in In-Context Learning [17.36757113301424]
In-Context Learning (ICL: In-Context Learning) の2つの重要なコンポーネント、コンテキストスケーリングとタスクスケーリングを分析します。コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
論文参考訳（メタデータ） (2024-10-16T17:58:08Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
Functional Interpolation for Relative Positions Improves Long Context Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。 FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文参考訳（メタデータ） (2023-10-06T17:59:11Z)
When to Use Efficient Self Attention? Profiling Text, Speech and Image Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文参考訳（メタデータ） (2023-06-14T17:59:02Z)
A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。注目度を最大化するために,相対的な位置埋め込みを導入する。言語モデルを用いてトランスフォーマーの変種を評価する。
論文参考訳（メタデータ） (2022-12-20T18:56:20Z)
DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-07-13T11:12:03Z)
Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文参考訳（メタデータ） (2021-07-05T18:00:14Z)
Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文参考訳（メタデータ） (2020-10-24T07:43:00Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。