論文の概要: MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2603.03001v1
- Date: Tue, 03 Mar 2026 13:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.825042
- Title: MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling
- Title(参考訳): MaBERT:効率的な拡張コンテキストマスク言語モデリングのためのパディングセーフなインターリーブ変換型Mambaハイブリッドエンコーダ
- Authors: Jinwoong Kim, Sangjin Park,
- Abstract要約: MaBERTはハイブリッドエンコーダで、TransformerレイヤとMambaレイヤをインターリーブし、リニアな状態更新を行う。
GLUEでは、MaBERTは8つのタスクのうち5つのタスクで最高の平均スコアを獲得し、CoLAと文ペア推論タスクで高いパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 3.5795275871379704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self attention encoders such as Bidirectional Encoder Representations from Transformers(BERT) scale quadratically with sequence length, making long context modeling expensive. Linear time state space models, such as Mamba, are efficient; however, they show limitations in modeling global interactions and can suffer from padding induced state contamination. We propose MaBERT, a hybrid encoder that interleaves Transformer layers for global dependency modeling with Mamba layers for linear time state updates. This design alternates global contextual integration with fast state accumulation, enabling efficient training and inference on long inputs. To stabilize variable length batching, we introduce paddingsafe masking, which blocks state propagation through padded positions, and mask aware attention pooling, which aggregates information only from valid tokens. On GLUE, MaBERT achieves the best mean score on five of the eight tasks, with strong performance on the CoLA and sentence pair inference tasks. When extending the context from 512 to 4,096 tokens, MaBERT reduces training time and inference latency by 2.36x and 2.43x, respectively, relative to the average of encoder baselines, demonstrating a practical long context efficient encoder.
- Abstract(参考訳): 双方向エンコーダRepresentations from Transformers(BERT)のような自己注意エンコーダは、シーケンス長の2倍にスケールし、長いコンテキストモデリングが高価になる。
マンバのような線形状態空間モデルは効率的であるが、グローバルな相互作用をモデル化する際の限界が示され、パディングによって引き起こされる状態汚染に悩まされる可能性がある。
線形時間状態更新のためのMamba層を用いたグローバル依存性モデリングのためのTransformer層をインターリーブするハイブリッドエンコーダMaBERTを提案する。
この設計は、グローバルなコンテキスト統合と高速な状態蓄積を交互に行い、長い入力に対する効率的なトレーニングと推論を可能にする。
可変長バッチリングを安定化するために,パッド配置による状態伝播を阻止するパディングセーフマスキングと,有効なトークンからのみ情報を集約するマスキングアテンションプールを導入する。
GLUEでは、MaBERTは8つのタスクのうち5つのタスクで最高の平均スコアを獲得し、CoLAと文ペア推論タスクで高いパフォーマンスを得る。
コンテキストを512から4,096トークンに拡張する場合、MABERTは、エンコーダベースラインの平均に対して、トレーニング時間と推論遅延を2.36xと2.43xに削減し、実用的な長いコンテキスト効率の良いエンコーダを示す。
関連論文リスト
- Stateful Token Reduction for Long-Video Hybrid VLMs [69.6930118088911]
ハイブリッドビデオビジョン言語モデル(VLM)のクエリ条件付きトークン削減について検討する。
本稿では,低段階から高段階の減算スケジュールと,注意とマンバブロックの両ブロックを対象とした言語認識スコアリング機構を提案する。
積極的圧縮条件下では,本手法はテスト時にほぼベースライン精度で精度の高いプリフィルング・スピードアップを実現する。
論文 参考訳(メタデータ) (2026-02-27T08:11:06Z) - SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [108.0657508755532]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - StableMask: Refining Causal Masking in Decoder-only Transformer [22.75632485195928]
因果マスキングと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。
しかし、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意スコアはゼロではなく1まで総和でなければならない。
因果マスクを精細化することで両方の制約に対処するパラメータフリー手法であるStableMaskを提案する。
論文 参考訳(メタデータ) (2024-02-07T12:01:02Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。