論文の概要: Pointer: Linear-Complexity Long-Range Modeling without Pre-training
- arxiv url: http://arxiv.org/abs/2508.02631v1
- Date: Mon, 04 Aug 2025 17:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.453623
- Title: Pointer: Linear-Complexity Long-Range Modeling without Pre-training
- Title(参考訳): ポインタ:事前学習を伴わない線形複雑長線モデリング
- Authors: Zixi Li,
- Abstract要約: 我々は、事前学習せずに長距離シーケンスモデリングのための線形な$O(NK)$複雑性を実現する新しいアーキテクチャであるPointerを紹介する。
このアーキテクチャは、標準的なトランスフォーマーと比較して、長いシーケンスでの2-10times$スピードアップを実現し、2048トークンまでの距離でのコピータスクの精度を95%以上維持し、構造化された依存性モデリングを示す解釈可能なポインタパターンを学習する。
- 参考スコア(独自算出の注目度): 0.5221459608786241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Pointer, a novel architecture that achieves linear $O(NK)$ complexity for long-range sequence modeling while maintaining superior performance without requiring pre-training. Unlike standard attention mechanisms that compute $O(N^2)$ pairwise interactions, our approach uses layer-wise pointer chaining where each layer's pointer selection depends on previous layer's pointer positions, creating explicit long-distance connections through pointer chains. We demonstrate that this architecture achieves $2$--$10\times$ speedup on long sequences compared to standard transformers, maintains $>95\%$ accuracy on copy tasks at distances up to 2048 tokens, and learns interpretable pointer patterns that reveal structured dependency modeling. Our experiments on efficiency benchmarks, long-range dependency tasks, and interpretability analysis show that Pointer offers a compelling alternative to attention mechanisms for scenarios requiring efficient long-range modeling without pre-training dependencies.
- Abstract(参考訳): 我々は、長距離シーケンスモデリングのための線形O(NK)$複雑さを実現する新しいアーキテクチャであるPointerを紹介し、事前学習を必要とせず、優れた性能を維持した。
O(N^2)$ペアワイズ相互作用を演算する標準的な注意機構とは異なり、本手法では各層のポインタ選択が前の層のポインタ位置に依存するような層ワイズポインタチェインを使用して、ポインタチェインを介して明示的な長距離接続を生成する。
このアーキテクチャは、標準的なトランスフォーマーと比較して、長いシーケンスで2-10\times$スピードアップを実現し、2048トークンまでの距離でのコピータスクの精度を95\%以上維持し、構造化された依存性モデリングを示す解釈可能なポインタパターンを学習する。
我々は,効率ベンチマーク,長距離依存性タスク,解釈可能性解析について実験した結果,Pointer は依存性を事前学習することなく,効率的な長距離モデリングを必要とするシナリオに対して,注目メカニズムに代わる魅力的な代替手段を提供することを示した。
関連論文リスト
- ParallelTime: Dynamically Weighting the Balance of Short- and Long-Term Temporal Dependencies [11.40258240052954]
自然言語処理では、短期依存関係をキャプチャするローカルウィンドウアテンションと、長期依存関係をキャプチャするMambaを組み合わせたアプローチが使用されている。
時系列予測タスクでは,長期的および短期的依存関係に等しい重みを割り当てるのが最適ではないことがわかった。
本稿では,長期および短期の依存関係に対する相互依存重みを算出する動的重み付け機構であるParallelTime Weighterを提案する。
論文 参考訳(メタデータ) (2025-07-18T15:08:02Z) - Generative Models for Long Time Series: Approximately Equivariant Recurrent Network Structures for an Adjusted Training Scheme [4.327763441385371]
本稿では,連続層を有する変分オートエンコーダ(VAE)に基づく時系列データに対する簡易かつ効果的な生成モデルを提案する。
本手法では,シーケンス長を漸進的に向上させる適応型トレーニング手法を提案する。
リカレントアーキテクチャを利用することで、モデルはシーケンス長に関係なく定数数のパラメータを保持する。
論文 参考訳(メタデータ) (2025-05-08T07:52:37Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Hexatagging: Projective Dependency Parsing as Tagging [63.5392760743851]
文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性であるヘキサトガーを導入する。
私たちのアプローチは、トレーニング時に完全に並列化可能です。すなわち、依存関係のパースを構築するのに必要な構造構築アクションは、互いに並列に予測できます。
我々はPenn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-08T18:02:07Z) - A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies [0.0]
既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:47:31Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z) - Rethinking Learnable Tree Filter for Generic Feature Transform [71.77463476808585]
Learnable Tree Filterはセマンティックセグメンテーションのためのモデル構造保存関係に対する顕著なアプローチを示す。
幾何学的制約を緩和するために,マルコフ確率場として再構成して解析を行い,学習可能な不定項を導入する。
セマンティックセグメンテーションでは、ベルとホイッスルなしでCityscapesベンチマークでトップパフォーマンス(82.1% mIoU)を達成しています。
論文 参考訳(メタデータ) (2020-12-07T07:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。