論文の概要: Recurrent Memory-Augmented Transformers with Chunked Attention for Long-Context Language Modeling
- arxiv url: http://arxiv.org/abs/2507.00453v1
- Date: Tue, 01 Jul 2025 06:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.356876
- Title: Recurrent Memory-Augmented Transformers with Chunked Attention for Long-Context Language Modeling
- Title(参考訳): 長期言語モデリングのためのチャンク注意型逐次メモリ拡張変換器
- Authors: Ankit Kashyap,
- Abstract要約: 本稿では,世界的注目を集める言語モデリングのためのトランスフォーマーアーキテクチャと,生物学的にインスパイアされた2つのコンポーネントについて述べる。
この統合されたアテンションブロックにより、モデルは短距離と長距離の両方の依存関係を効率的に扱うことができる。
アーキテクチャはPyTorchのスクラッチから完全に実装されており、高レベルのライブラリに依存しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a Transformer architecture for long-context language modeling that combines global attention with two biologically inspired components: chunked local attention and a gated FIFO memory mechanism. This unified attention block allows the model to efficiently handle both short-range and long-range dependencies without increasing attention cost quadratically. The memory module persistently stores past token representations using a gated update mechanism inspired by recurrent networks. Rotary positional encoding is applied per attention head to enable directionally disentangled, scale-invariant positional signals. The architecture is implemented entirely from scratch in PyTorch, with no reliance on high-level libraries, enabling transparent and modular experimentation. Our model offers a lightweight and extensible design for tasks such as dialogue modeling, code completion, and document understanding.
- Abstract(参考訳): 本稿では,世界的注目と生物学的にインスパイアされた2つのコンポーネント – チャンクローカルアテンションとゲート型FIFOメモリ機構 – を組み合わせた,長期コンテキスト言語モデリングのためのTransformerアーキテクチャを提案する。
この統合された注意ブロックにより、モデルは注意コストを2次的に増加させることなく、短距離と長距離の両方の依存関係を効率的に処理できる。
メモリモジュールは、繰り返しネットワークにインスパイアされたゲート更新機構を使用して、過去のトークン表現を永続的に保存する。
回転位置符号化は注目ヘッド毎に適用され、方向が歪んだスケール不変の位置信号を可能にする。
アーキテクチャはPyTorchのスクラッチから完全に実装されており、高レベルのライブラリに依存せず、透過的でモジュール化された実験を可能にする。
我々のモデルは対話モデリング、コード補完、文書理解といったタスクに対して軽量で拡張可能な設計を提供する。
関連論文リスト
- Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long Context Horizons [0.0]
非常に長いコンテキストウインドウを効率的に処理する大規模言語モデル(LLM)のための新しい非注意型アーキテクチャを提案する。
自己注意機構の性質から2次記憶と過負荷に悩まされている従来のTransformer設計とは異なり、当社のモデルはトークンによる注意の注意を完全に回避している。
論文 参考訳(メタデータ) (2025-05-09T00:25:46Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Scalable, Tokenization-Free Diffusion Model Architectures with Efficient Initial Convolution and Fixed-Size Reusable Structures for On-Device Image Generation [0.0]
ビジョントランスフォーマーとU-Netアーキテクチャは拡散モデルの実装において広く採用されている。
固定サイズ再利用可能なトランスブロックをコア構造として利用するアーキテクチャを提案する。
私たちのアーキテクチャの特徴は、複雑さの低い、トークンのない設計、位置埋め込みの欠如、均一性、スケーラビリティです。
論文 参考訳(メタデータ) (2024-11-09T08:58:57Z) - Cached Transformers: Improving Transformers with Differentiable Memory
Cache [71.28188777209034]
この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。
Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
論文 参考訳(メタデータ) (2023-12-20T03:30:51Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [47.7036344302777]
現在のオブジェクトビデオ参照メソッドは、抽出-then-matchingのパイプラインに従う。
本稿では,共同機能モデリング,対応,圧縮メモリのための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Landmark Attention: Random-Access Infinite Context Length for
Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。
提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2023-05-25T17:53:42Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。