論文の概要: Linear-Time Global Visual Modeling without Explicit Attention
- arxiv url: http://arxiv.org/abs/2605.01711v1
- Date: Sun, 03 May 2026 04:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.898236
- Title: Linear-Time Global Visual Modeling without Explicit Attention
- Title(参考訳): 明示的注意を伴わない線形時間グローバルビジュアルモデリング
- Authors: Ruize He, Dongchen Han, Gao Huang,
- Abstract要約: 既存の研究は、トランスフォーマーのグローバルシーケンスモデリング能力を、注意重みの明示的な計算に大きく貢献している。
本研究では,動的に予測されるパラメータを備えた多層パーセプトロンとして,数学的に注目が再編成されることを示す。
- 参考スコア(独自算出の注目度): 22.172617929222103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing research largely attributes the global sequence modeling capability of Transformers to the explicit computation of attention weights, a process that inherently incurs quadratic computational complexity. In this work, we offer a novel perspective: we demonstrate that attention can be mathematically reframed as a Multi-Layer Perceptron (MLP) equipped with dynamically predicted parameters. Through this lens, we explain attention's global modeling power not as explicit token-wise aggregation, but as an implicit process where dynamically generated parameters act as a compressed representation of the global context. Inspired by this insight, we investigate a fundamental question: can we achieve Transformer-level sequence global modeling entirely through dynamic parameterization while maintaining linear complexity, effectively replacing explicit attention? To explore this, we design various dynamic parameter prediction strategies and integrate them into standard network layers. Extensive empirical studies on vision models demonstrate that dynamic parameterization can indeed serve as a highly effective, linear-complexity alternative to explicit attention, opening new pathways for efficient sequence modeling. Code is available at https://github.com/LeapLabTHU/WeightFormer.
- Abstract(参考訳): 既存の研究は、トランスフォーマーのグローバルシーケンスモデリング能力は、本質的に二次計算の複雑さを引き起こすプロセスである注意重みの明示的な計算に大きく影響している。
本研究では,動的に予測されるパラメータを備えた多層パーセプトロン (MLP) として数学的に再配置可能であることを示す。
このレンズを通して、注意のグローバルモデリング能力は明示的なトークンワイドアグリゲーションではなく、動的に生成されたパラメータがグローバルコンテキストの圧縮された表現として機能する暗黙のプロセスとして説明できる。
この知見に触発されて、線形複雑性を維持しながら動的パラメータ化を通じてトランスフォーマーレベルのシーケンスグローバルモデリングを完全に達成し、明示的な注意を効果的に置き換えることができるか、という根本的な疑問を考察する。
そこで我々は,様々な動的パラメータ予測戦略を設計し,それらを標準的なネットワーク層に統合する。
視覚モデルに関する大規模な実験研究により、動的パラメータ化は明らかに注意を向ける代わりに非常に効果的で線形複雑であり、効率的なシーケンスモデリングのための新しい経路を開くことができることを示した。
コードはhttps://github.com/LeapLabTHU/WeightFormerで入手できる。
関連論文リスト
- Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Beyond Static Models: Hypernetworks for Adaptive and Generalizable Forecasting in Complex Parametric Dynamical Systems [0.0]
補間ネットワーク学習のためのパラメトリックハイパーネットワーク(PHLieNet)について紹介する。
PHLieNetはパラメータ空間から非線形埋め込みへのグローバルマッピングと、推論埋め込みから動的伝播ネットワークの重みへのマッピングを同時に学習する。
観測よりもモデルの空間を補間することにより、PHLieNetはパラメータ化されたシステム挙動間のスムーズな遷移を促進する。
論文 参考訳(メタデータ) (2025-06-24T13:22:49Z) - Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。
提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。
我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-03T09:12:14Z) - Learnable Infinite Taylor Gaussian for Dynamic View Rendering [55.382017409903305]
本稿では,ガウスの時間的進化をモデル化するための学習可能なテイラー式に基づく新しいアプローチを提案する。
提案手法は,本領域における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-05T16:03:37Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - DynInt: Dynamic Interaction Modeling for Large-scale Click-Through Rate
Prediction [0.0]
機能インタラクションの学習は、Adsランキングとレコメンデーションシステムにおける大規模なCTR予測の成功の鍵である。
このような問題をモデル化するために、ディープニューラルネットワークベースのモデルが広く採用されている。
我々はDynIntという新しいモデルを提案する。DynIntは動的でデータに依存しない高次相互作用を学習する。
論文 参考訳(メタデータ) (2023-01-03T13:01:30Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Deep Neural Dynamic Bayesian Networks applied to EEG sleep spindles
modeling [0.0]
本稿では,視覚的スコアリングにおいて専門家が積極的に実施する制約を組み込んだ単一チャネル脳波生成モデルを提案する。
我々は、一般化期待最大化の特別な場合として、正確に、抽出可能な推論のためのアルゴリズムを導出する。
我々は、このモデルを3つの公開データセット上で検証し、より複雑なモデルが最先端の検出器を越えられるように支援する。
論文 参考訳(メタデータ) (2020-10-16T21:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。