論文の概要: Block-Based Double Decoders
- arxiv url: http://arxiv.org/abs/2605.18807v1
- Date: Mon, 11 May 2026 22:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.347525
- Title: Block-Based Double Decoders
- Title(参考訳): ブロックベースダブルデコーダ
- Authors: Asher Labovich, Benjamin Bradley, Vanessa Alexander, Chaitanya Harsha,
- Abstract要約: 本稿では,2つのブロックベースのアテンションマスクを用いて,全損失監視と静的シーケンスパッキングの訓練を行うブロックベースのダブルデコーダを提案する。
法則実験のスケーリングにおいて、ブロックベースのダブルデコーダはデコーダのみのモデルを強く上回り、スケールにわたってデコーダのみのモデルを密に追跡する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder-decoder models offer substantial inference-time savings over decoder-only models, but their pretraining objectives suffer from sparse supervision and dynamic sequence lengths, keeping them out of practice at scale. We propose block-based double decoders, a novel transformer architecture that utilizes doubly-causal block-based attention masks to train with full loss supervision and static sequence packing, combining decoder-only training efficiency with encoder-decoder inference efficiency. In scaling law experiments, block-based double decoders strongly outperform encoder-decoders and closely track decoder-only models across scales. At inference time, they cut KV-cache memory and per-token compute by at least 2/3 without sacrificing prefill caching or other existing inference optimizations available to decoder-only models.
- Abstract(参考訳): エンコーダ・デコーダモデルではデコーダのみのモデルよりも相当な推論時間を節約できるが、事前訓練対象は疎い監視と動的シーケンス長に悩まされ、それらを大規模に実行できなくなる。
ブロックベース2重復号器は,2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重2重
法則実験のスケーリングにおいて、ブロックベースのダブルデコーダはエンコーダ・デコーダを強く上回り、スケールにわたってデコーダのみのモデルを密に追跡する。
推論時には、プリフィルキャッシュや他のデコーダのみのモデルで利用可能な既存の推論最適化を犠牲にすることなく、KVキャッシュメモリとトーケン毎の計算を少なくとも2/3削減した。
関連論文リスト
- The Diffusion Encoder [0.0]
従来の変分オートエンコーダでは、エンコーダとデコーダが共同で入力の潜在表現を交渉する。
このエンコーダを拡散モデルに置き換えるには、デコーダの圧力をエンコーダに戻す方法を再考する必要がある。
予測最大化アルゴリズムにインスパイアされた交互学習方式でこの問題を解決する。
論文 参考訳(メタデータ) (2026-05-13T11:54:43Z) - Scope: Selective Cross-modal Orchestration of Visual Perception Experts [51.29218658993354]
SCOPEはMixture-of-Encodersフレームワークで、インスタンスレベルのルーティングを通じて画像テキストペアごとに1つの特別なエンコーダを動的に選択する。
軽量ルータは、テキストプロンプトと共有視覚特徴間の相互アテンションを使用して、ルーティングされたエンコーダから最適なエンコーダを選択する。
注目すべきは、共有された1つプラス1つのルーティングエンコーダを持つSCOPEは、4つの余分なエンコーダを同時に使用し、計算量を24-49%削減する。
論文 参考訳(メタデータ) (2025-10-14T20:33:01Z) - Learning Linear Block Error Correction Codes [62.25533750469467]
本稿では,バイナリ線形ブロック符号の統一エンコーダデコーダトレーニングを初めて提案する。
また,コード勾配の効率的なバックプロパゲーションのために,自己注意マスキングを行うトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-05-07T06:47:12Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。