Fugu-MT 論文翻訳(概要): Position-Agnostic Pre-Projection for Transformer Attention: Nonlinear Feature Construction and Content Skip Before Q/K/V

論文の概要: Position-Agnostic Pre-Projection for Transformer Attention: Nonlinear Feature Construction and Content Skip Before Q/K/V

arxiv url: http://arxiv.org/abs/2604.10791v1
Date: Sun, 12 Apr 2026 19:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.219474
Title: Position-Agnostic Pre-Projection for Transformer Attention: Nonlinear Feature Construction and Content Skip Before Q/K/V
Title（参考訳）: 変圧器注意のための位置非依存予射:Q/K/V前の非線形特徴構成とコンテンツスキップ
Authors: Chirag Shinde,
Abstract要約: 本稿では,変圧器の注目ブロックに対する2つの相補的な修正を提案する。まず、レイヤノルムとQ/K/Vプロジェクションの間に非線形プレプロジェクションを挿入する。第2に、コンテンツスキップ接続は、アテンション機構の周囲に、プレプロジェクションの機能をルーティングする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose two complementary modifications to transformer attention blocks. First, a non-linear pre-projection MLP is inserted between layer norm and Q/K/V projections, constructing richer features in a position-agnostic manner before any positional encoding is applied. Second, a content skip connection routes the pre-projection's features around the attention mechanism, allowing content information to bypass position-aware attention where beneficial. In frozen-probe experiments on Pythia-160M and 410M, the combined approach achieves the strongest results across methods: +40.6% LAMBADA accuracy and -39% perplexity at 160M scale. Learned skip connection weights reveal a consistent pattern across model sizes: later transformer layers activate the content bypass more strongly than earlier layers, suggesting that deeper layers benefit from content information that does not pass through positional attention. All modifications add no K/V cache overhead.
Abstract（参考訳）: 本稿では,変圧器の注目ブロックに対する2つの相補的な修正を提案する。まず、レイヤノルムとQ/K/Vプロジェクションの間に非線形プレジェクションMLPを挿入し、任意の位置符号化を適用する前に、よりリッチな特徴を位置に依存しない方法で構築する。第2に、コンテンツスキップ接続は、アテンション機構を中心に、プリプロジェクションの特徴をルーティングし、コンテンツ情報が有益な位置認識アテンションをバイパスすることを可能にする。 Pythia-160M と 410M の凍結プローブ実験では、組み合わせた手法は最も強力な結果を得る: +40.6% LAMBADA の精度と -39% のパープレキシティを 160M スケールで達成した。後続のトランスフォーマー層は、以前のレイヤよりも強いコンテントバイパスを活性化し、より深いレイヤは、位置的注意を通さないコンテント情報から恩恵を受けることを示唆している。すべての変更でK/Vキャッシュのオーバーヘッドは発生しない。

関連論文リスト

Distilling to Hybrid Attention Models via KL-Guided Layer Selection [66.06591032073744]
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
論文参考訳（メタデータ） (2025-12-23T18:12:22Z)
SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文参考訳（メタデータ） (2025-06-16T09:16:40Z)
PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter [54.33433051500349]
本稿では,事前学習モデルのすべての層から順序付き特徴系列を構成するPMAを提案する。また、異なる層にまたがって共有される幾何学制約ゲートプロンプトジェネレータ(G2PG)を提案する。
論文参考訳（メタデータ） (2025-05-27T09:27:16Z)
Value Residual Learning [13.88704205151734]
本稿では,ResFormerについて紹介する。ResFormerは値残差接続を組み込むことで情報フローを向上させるアーキテクチャである。モデルパラメータが16.11%減少し、Transformerに比べてトレーニングデータが20.3%減少している。
論文参考訳（メタデータ） (2024-10-23T14:15:07Z)
ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文参考訳（メタデータ） (2023-04-10T02:40:24Z)
Point Transformer V2: Grouped Vector Attention and Partition-based Pooling [25.245254516317118]
我々は、ポイント変換器の限界を分析し、強力で効率的なポイント変換器V2モデルを提案する。特に,まず,従来のベクトル注意法よりも効果的である群ベクトル注意法を提案する。我々のモデルは,先行モデルよりも優れた性能を達成し,いくつかの挑戦的な3Dポイントクラウド理解ベンチマークで最先端を達成している。
論文参考訳（メタデータ） (2022-10-11T17:58:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。