論文の概要: Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention
- arxiv url: http://arxiv.org/abs/2604.00754v1
- Date: Wed, 01 Apr 2026 11:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.952204
- Title: Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention
- Title(参考訳): 確率的注意:表現的線形時間注意のためのコネクトームによるランダムなルーティング
- Authors: Zehao Jin, Yanan Sui,
- Abstract要約: 本稿では,ウィンドウ化前のトークン列にランダムな置換を適用し,その後に元の順序を復元するスライディングウィンドウアテンション(SWA)のドロップインエンハンスメントを提案する。
深さを通じて、独立にサンプリングされた置換は指数関数的に増加し、SWAの$O(log_w n)$層対$O(n/w)$層における全列カバレッジを達成する。
これらの結果から,コネクトームにインスパイアされたルーティングは,効率的な注意力の表現性を向上させるための実用的なプリミティブであることが示唆された。
- 参考スコア(独自算出の注目度): 8.505538674613037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The whole-brain connectome of a fruit fly comprises over 130K neurons connected with a probability of merely 0.02%, yet achieves an average shortest path of only 4.4 hops. Despite being highly structured at the circuit level, the network's long-range connections are broadly distributed across brain regions, functioning as stochastic shortcuts that enable efficient global communication. Inspired by this observation, we propose Stochastic Attention (SA), a drop-in enhancement for sliding-window attention (SWA) that applies a random permutation to the token sequence before windowed attention and restores the original order afterward. This transforms the fixed local window into a stochastic global one within the same $O(nw)$ per-layer budget. Through depth, independently sampled permutations yield exponentially growing receptive fields, achieving full sequence coverage in $O(\log_w n)$ layers versus $O(n/w)$ for SWA. We validate SA in two settings: pre-training language models from scratch, where a gated SA + SWA combination achieves the best average zero-shot accuracy, and training-free inference on Qwen3-8B and Qwen3-30B-A3B, where SA consistently outperforms SWA and matches or exceeds Mixture of Block Attention at comparable compute budgets. These results suggest that connectome-inspired stochastic routing is a practical primitive for improving the expressivity of efficient attention, complementary to existing linear and sparse approaches.
- Abstract(参考訳): 果実ハエの全脳コネクトームは、わずか0.02%の確率で130K以上のニューロンから構成されるが、平均最短経路は4.4ホップである。
回路レベルで高度に構造化されているにもかかわらず、ネットワークの長距離接続は脳領域に広く分散し、効率的なグローバル通信を可能にする確率的ショートカットとして機能する。
この観測から着想を得たSWA(Stochastic Attention)を提案する。これはスライディング・ウインドウ・アテンション(SWA)のためのドロップイン・エンハンスメントで、ウィンドウド・アテンションの前にトークン列にランダムな置換を適用し、その後に元の順序を復元する。
これにより固定されたローカルウィンドウは同じ$O(nw)$1層予算内で確率的グローバルウィンドウに変換される。
深さを通じて、独立にサンプリングされた置換は指数関数的に増加し、SWAの$O(\log_w n)$層と$O(n/w)$のフルシーケンスカバレッジを達成する。
我々は,SAをスクラッチから事前トレーニングする言語モデル,ゲートSA+SWAの組み合わせが最高のゼロショット精度を達成する,Qwen3-8BとQwen3-30B-A3Bのトレーニング不要推論,SAが一貫してSWAを上回り,同等の計算予算でMixture of Block Attentionを上回る,という2つの設定で検証する。
これらの結果から,コネクトームにインスパイアされた確率的ルーティングは,既存の線形およびスパースアプローチを補完する,効率的な注意力の表現性を向上させるための実用的なプリミティブであることが示唆された。
関連論文リスト
- ALMAB-DC: Active Learning, Multi-Armed Bandits, and Distributed Computing for Sequential Experimental Design and Black-Box Optimization [0.0]
ALMAB-DCはブラックボックス実験のための逐次設計フレームワークである。
バンディット成分に対する累積的後悔境界を示し、Amdahlの法則を通した並列スケーラビリティを特徴付ける。
分散実行は、Amdahlの法則に従って、$K = 16$エージェントでの7.5times$スピードアップを達成する。
論文 参考訳(メタデータ) (2026-03-22T11:47:20Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates [13.591018807414484]
Strong Lottery Ticket (SLT)仮説は、無作為なネットワークには、ウェイトトレーニングなしで競争精度を達成できるスパースワークが含まれていることを示唆している。
我々は、連続的に緩和されたBernoulligatingを用いて、完全に微分可能でエンドツーエンドの最適化によってSLTを発見することを提案する。
完全接続ネットワーク、CNN(ResNet、Wide-ResNet)、ビジョントランスフォーマー(ViT、Swin-T)での実験では、90%の間隔で精度が低下する。
論文 参考訳(メタデータ) (2026-03-09T20:33:16Z) - Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks [87.16809558673403]
スパイキングニューラルネットワーク(SNN)は離散スパイクで計算し、時間構造を利用する。
イベント駆動SNNにおけるスパイク数と振幅を保存しながら、既存のスパイクを繰り返すタイミングのみの敵について検討する。
論文 参考訳(メタデータ) (2026-02-03T09:06:53Z) - Predictive Scheduling for Efficient Inference-Time Reasoning in Large Language Models [6.002670452103349]
大規模言語モデル(LLM)は複雑な推論タスクにおいて最先端の精度を達成する。
しかし、クエリ毎に固定されたトークン予算を使用することで、簡単な入力の過剰計算とハードな入力の過小計算につながる。
プラグイン・アンド・プレイのフレームワークであるPredictive Schedulingを導入する。このフレームワークは軽量な予測器を事前実行し、各クエリの最適な推論の長さや難易度を全世代前に推定する。
論文 参考訳(メタデータ) (2026-02-01T13:58:23Z) - See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection [51.59559387222532]
エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。
我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
論文 参考訳(メタデータ) (2026-01-15T18:58:33Z) - Hierarchical Federated Graph Attention Networks for Scalable and Resilient UAV Collision Avoidance [0.5505634045241287]
衝突回避を実践するためにバランスをとる必要がある最も重要な指標は、リアルタイムのパフォーマンス、敵のレジリエンス、プライバシー保護である。
我々は適応型微分プライバシー機構を提案し,実時間脅威の評価に基づいて雑音レベル$(in [0.1, 1.0])$を動的に低減する。
このアーキテクチャは500UAVのスケーラブルなシナリオを提供し、衝突速度は2.0%$、ビザンティンの耐障害性は$f n/3$である。
論文 参考訳(メタデータ) (2025-11-05T12:01:00Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - Constructive Universal Approximation and Sure Convergence for Multi-Layer Neural Networks [0.0]
o1Neuroはスパースインジケータ活性化ニューロン上に構築された新しいニューラルネットワークモデルである。
人口レベルでは、深い o1Neuro は $boldsymbolX$ の任意の可測関数を近似することができる。
サンプルレベルでは、o1Neuroの最適化は、十分に多くの更新ラウンドの後、確率が1に近づく最適モデルに達する。
論文 参考訳(メタデータ) (2025-07-07T08:55:28Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。