論文の概要: Modality Agnostic Efficient Long Range Encoder
- arxiv url: http://arxiv.org/abs/2507.19409v1
- Date: Fri, 25 Jul 2025 16:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.034753
- Title: Modality Agnostic Efficient Long Range Encoder
- Title(参考訳): Modality Agnostic Efficient Long Range Encoder
- Authors: Toufiq Parag, Ahmed Elgammal,
- Abstract要約: 汎用実装を用いた単一デバイス上での長文処理の課題に対処する。
これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。
我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
- 参考スコア(独自算出の注目度): 14.705955027331674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The long-context capability of recent large transformer models can be surmised to rely on techniques such as attention/model parallelism, as well as hardware-level optimizations. While these strategies allow input lengths to scale to millions of tokens, they do not fundamentally mitigate the quadratic computational and memory complexity of the core attention mechanism. In this paper, we address the challenge of long-context processing on a single device using generic implementations by reducing the quadratic memory footprint and inference cost. Existing approaches to extend the context length for generic single device implementations -- such as token merging and modified attentions -- are often modality specific and attain a suboptimal tradeoff between accuracy and efficiency. To overcome these limitations, we propose MAELRE (Modality Agnostic Efficient Long Range Encoder), a unified and efficient transformer architecture designed for long-range encoding across diverse modalities. MAELRE integrates token merging with attention approximation, progressively merging tokens at different stages of internal computational blocks. It employs a lightweight attention approximation when the number of tokens is large, and switches to standard dot-product attention as the sequence becomes shorter through successive aggregation. We demonstrate that MAELRE achieves superior accuracy while reducing computational cost compared to existing long-context models on classification tasks spanning multiple modalities, including text, time series, audio, and vision.
- Abstract(参考訳): 近年の大規模トランスモデルの長文化能力は、ハードウェアレベルの最適化だけでなく、注意/モデル並列化のような技術に依存すると推測できる。
これらの戦略は入力長を数百万のトークンに拡張することを可能にするが、コアアテンション機構の二次計算とメモリの複雑さを根本的に軽減するわけではない。
本稿では,2次メモリフットプリントと推論コストを削減し,汎用的な実装を用いた単一デバイス上での長文処理の課題に対処する。
トークンのマージやアテンションの変更など、一般的な単一デバイス実装のコンテキスト長を拡張する既存のアプローチは、しばしばモダリティに特化しており、正確性と効率の中間的なトレードオフを達成している。
これらの制約を克服するために,多種多様なモダリティにまたがる長距離符号化のための統一かつ効率的なトランスフォーマアーキテクチャであるMAELRE(Modality Agnostic Efficient Long Range Encoder)を提案する。
MAELREはトークンのマージとアテンション近似を統合し、内部計算ブロックの異なる段階でトークンを徐々にマージする。
トークンの数が多ければ軽量な注意近似を用い、連続的な集約によってシーケンスが短くなるにつれて、標準的なドット積の注意に切り替える。
テキスト,時系列,音声,視覚など,複数のモードにまたがる分類タスクにおいて,MAELREは従来の長文モデルと比較して計算コストを低減しつつ,優れた精度を達成できることを実証した。
関連論文リスト
- Don't Pay Attention [0.552480439325792]
Aveyは新しい神経基盤アーキテクチャで、注意と再発の両方から切り離されている。
Aveyは、コンテキスト幅からシーケンスの長さを分離することで、任意に長いシーケンスの効率的な処理を可能にする。
その結果、Avey は様々な標準短距離 NLP ベンチマークで Transformer と比較した。
論文 参考訳(メタデータ) (2025-06-12T21:11:06Z) - Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。
近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。
ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文 参考訳(メタデータ) (2025-05-19T18:00:00Z) - SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。
実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文 参考訳(メタデータ) (2024-12-09T04:27:03Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。