論文の概要: COREY: Entropy-Guided Runtime Chunk Scheduling for Selective Scan Kernels
- arxiv url: http://arxiv.org/abs/2604.10597v2
- Date: Sat, 18 Apr 2026 23:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.003232
- Title: COREY: Entropy-Guided Runtime Chunk Scheduling for Selective Scan Kernels
- Title(参考訳): COREY: 選択型スキャンカーネルのためのエントロピーガイド型ランタイムチャンクスケジューリング
- Authors: Bo Ma, Jinsong Wu, Hongjiang Wei, Weiqi Yan,
- Abstract要約: プロトタイプスケジューラは、固定幅ヒストグラムを用いて推定したアクティベーションエントロピーを、チャンクサイズ選択のランタイム信号として利用する。
COREYはConcept and Feasibilityのコントリビューションとして位置づけられている。
この作業には、Tier 2aとTier 2bを接続する完全なエンドツーエンド実行が含まれていない。
- 参考スコア(独自算出の注目度): 11.316541559874864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mamba selective state space models (SSMs) provide linear-time sequence modeling but are often limited by memory bandwidth in practice, where selective state updates are executed as fragmented kernels with repeated intermediate tensor materialization. We present COREY, a prototype scheduler that uses activation entropy estimated via fixed-width histograms as a runtime signal for chunk-size selection at the kernel-invocation level. COREY is positioned as a Concept and Feasibility contribution: a single-parameter runtime auto-tuner built on an existing Triton selective-scan kernel rather than a new fused implementation. Evidence is organized in three tiers. Tier 1 (Python cost model) shows that entropy-guided grouping reduces surrogate latency and DRAM traffic. Tier 2a (real-checkpoint inline hook) demonstrates that entropy computation and chunk selection can run on the critical path of model.generate(); on Mamba-370M (RTX 3070, n=5), measured overhead is 8.3 percent with full instrumentation and estimated about 2 percent with sparse sampling. Tier 2b (kernel-level scan benchmark) shows that, under a principled calibration where H_ref equals log(K), COREY selects the same chunk as a one-time-profile oracle without offline sweeps and achieves up to 4.41x speedup over static chunk-64. This work does not yet include a fully integrated end-to-end run connecting Tier 2a and Tier 2b, which remains key future work. Across 80 LongBench prompts, entropy distributions are stable, supporting COREY as a practical runtime auto-tuner within a single regime. Code and data: https://github.com/mabo1215/COREY_Transformer/.
- Abstract(参考訳): マンバ選択状態空間モデル(SSM)は線形時間シーケンスモデルを提供するが、実際にはメモリ帯域幅によって制限されることが多い。
カーネル起動レベルにおけるチャンクサイズ選択のランタイム信号として固定幅ヒストグラムを用いて推定されるアクティベーションエントロピーを利用するプロトタイプスケジューラであるCOREYを提案する。
COREYは概念と実現可能性のコントリビューションとして位置づけられており、新しい融合実装ではなく、既存のトリトン選択スキャンカーネル上に構築された単一パラメータランタイム自動チューニングである。
証拠は3つの階層に分けられる。
Tier 1 (Pythonのコストモデル) は、エントロピー誘導型グルーピングがサロゲート遅延とDRAMトラフィックを減少させることを示している。
Tier 2a (real-checkpoint inline hook) は、エントロピー計算とチャンク選択が Model.generate() のクリティカルパス上で実行できることを示した。
階層2b(カーネルレベルのスキャンベンチマーク)では、H_refがlog(K)と等しい原理的なキャリブレーションの下で、COREYはオフラインのスイープなしでワンタイムのオラクルと同じチャンクを選択し、静的チャンク-64上で最大4.41倍のスピードアップを達成する。
この作業には、Tier 2aとTier 2bを接続する完全なエンドツーエンド実行が含まれていない。
80以上のLongBenchプロンプトでは、エントロピー分布は安定しており、COREYを1つのレシエーション内で実行時のオートチューニングとしてサポートしている。
コードとデータ:https://github.com/mabo1215/COREY_Transformer/。
関連論文リスト
- Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection [15.896078006029475]
DINOモデルは、教師なし異常検出(UAD)において、最近強力なパフォーマンスを実現したリッチなパッチレベル表現を提供する。
既存のほとんどの手法では、パッチ間の空間的および近傍的な関係を無視して、通常の画像からパッチ埋め込みを抽出し、それらを個別にモデル化する。
本稿では,2次元自己回帰(AR)モデルを用いて,パッチ埋め込み間の空間的および文脈的依存関係を明示的にモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-03T13:30:33Z) - Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control [31.523644271297616]
一般化可能なロボット操作における重要なボトルネックは、現在の視覚的バックボーンと閉ループ制御の物理的要求との間の構造的ミスマッチである。
我々は,マニフォールド蒸留による推論プロセスから幾何学的情報ソースを分離するフレームワークであるRobot-DIFTを提案する。
凍結拡散教師を決定論的空間意味的特徴ピラミッドネットワーク(S2-FPN)に蒸留することにより、時間的安定性、リアルタイム実行、ドリフトに対する堅牢性を確保しつつ、生成モデルの豊富な幾何学的先行性を維持できる。
論文 参考訳(メタデータ) (2026-02-12T13:30:24Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - Disentangling History and Propagation Dependencies in Cross-Subject Knee Contact Stress Prediction Using a Shared MeshGraphNet Backbone [0.8283940114367679]
予測の不確実性の主な原因が時間的履歴依存か空間的伝播依存かは、まだ不明である。
OpenSim-FEBioワークフローを使用して、9つの被験者による試行のデータセットを構築した。
ヒストリーエンコーディングを組み込んだモデルは、大域的精度と空間的整合性において、ベースラインMGNとModMGNを大きく上回った。
論文 参考訳(メタデータ) (2026-01-13T08:15:57Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Network-Optimised Spiking Neural Network for Event-Driven Networking [2.5941336499463383]
スパイキングニューラルネットワークは、異常検出、ローカルルーティング制御、エッジでの混雑管理など、時間クリティカルなネットワークタスクに適したイベント駆動型計算を提供する。
本稿では,正規化された待ち行列の占有状態と回復資源を符号化したコンパクトな2変数ユニットであるNetwork-Optimized Spiking (NOS)を紹介する。
我々は、データ駆動初期化、リセットシャープネスに基づくホモトピーによる代理段階トレーニング、リソース制約されたデプロイメントのための境界のトポロジによる明確な安定性チェックのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-27T22:31:24Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。