論文の概要: TDFormer: A Top-Down Attention-Controlled Spiking Transformer
- arxiv url: http://arxiv.org/abs/2505.15840v2
- Date: Fri, 23 May 2025 03:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 13:31:15.814812
- Title: TDFormer: A Top-Down Attention-Controlled Spiking Transformer
- Title(参考訳): TDFormer:トップダウンの注意制御型スパイキングトランス
- Authors: Zizheng Zhu, Yingchao Yu, Zeqi Zheng, Zhaofei Yu, Yaochu Jin,
- Abstract要約: 本稿では,階層的に機能するトップダウンフィードバック構造を持つ新しいモデルであるTDFormerを紹介する。
これらのメカニズムは、複数のデータセット上でのモデル性能を大幅に改善する。
特に,画像ネットの最先端性能を86.83%の精度で達成している。
- 参考スコア(独自算出の注目度): 33.07648914591285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional spiking neural networks (SNNs) can be viewed as a combination of multiple subnetworks with each running for one time step, where the parameters are shared, and the membrane potential serves as the only information link between them. However, the implicit nature of the membrane potential limits its ability to effectively represent temporal information. As a result, each time step cannot fully leverage information from previous time steps, seriously limiting the model's performance. Inspired by the top-down mechanism in the brain, we introduce TDFormer, a novel model with a top-down feedback structure that functions hierarchically and leverages high-order representations from earlier time steps to modulate the processing of low-order information at later stages. The feedback structure plays a role from two perspectives: 1) During forward propagation, our model increases the mutual information across time steps, indicating that richer temporal information is being transmitted and integrated in different time steps. 2) During backward propagation, we theoretically prove that the feedback structure alleviates the problem of vanishing gradients along the time dimension. We find that these mechanisms together significantly and consistently improve the model performance on multiple datasets. In particular, our model achieves state-of-the-art performance on ImageNet with an accuracy of 86.83%.
- Abstract(参考訳): 従来のスパイクニューラルネットワーク(SNN)は、複数のサブネットワークの組み合わせとして、パラメータが共有される1ステップ毎に実行され、膜電位がそれらの間の唯一の情報リンクとして機能すると見なすことができる。
しかし、膜電位の暗黙の性質は、時間的情報を効果的に表現する能力を制限する。
その結果、各タイムステップは、過去のタイムステップからの情報を完全に活用することができず、モデルの性能を著しく制限する。
脳のトップダウン機構にインスパイアされたTDFormerは、階層的に機能し、初期の段階からの高次表現を利用して、後段の低次情報の処理を変調する、トップダウンフィードバック構造を持つ新しいモデルである。
フィードバック構造は2つの観点から役割を担います。
1) 進行伝搬中は,時間ステップ間の相互情報を増大させ,よりリッチな時間情報が送信され,異なる時間ステップに統合されていることを示す。
2) 後方伝播中は, フィードバック構造が時間次元に沿った勾配を解消する問題を緩和することを理論的に証明する。
これらのメカニズムは、複数のデータセット上でのモデル性能を大幅に改善する。
特に,画像ネットの最先端性能を86.83%の精度で達成している。
関連論文リスト
- TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Gradient Forward-Propagation for Large-Scale Temporal Video Modelling [13.665160620951777]
バックプロパゲーションは前方と後方のパスが完了するまで計算をブロックする。
時間信号の場合、これはレイテンシが高く、リアルタイム学習を妨げる。
本稿では,Sideways上に構築し,時間内に近似勾配を伝搬することでブロッキングを回避する。
計算を分離し、個々のニューラルネットワークモジュールを異なるデバイスに委譲する方法を示し、分散および並列トレーニングを可能にする。
論文 参考訳(メタデータ) (2021-06-15T17:50:22Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - Temporal Convolutional Attention-based Network For Sequence Modeling [13.972755301732656]
時間畳み込みアテンションベースネットワーク(TCAN)と呼ばれる探索的アーキテクチャを提案する。
TCANは、時間的畳み込みネットワークとアテンションメカニズムを組み合わせる。
我々は bpc/perplexity の最先端の結果をワードレベル PTB では 30.28 ,文字レベル PTB では 1.092 ,WikiText-2 では 9.20 に改善した。
論文 参考訳(メタデータ) (2020-02-28T03:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。