論文の概要: Modality-Aware Zero-Shot Pruning and Sparse Attention for Efficient Multimodal Edge Inference
- arxiv url: http://arxiv.org/abs/2604.08971v1
- Date: Fri, 10 Apr 2026 05:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.698199
- Title: Modality-Aware Zero-Shot Pruning and Sparse Attention for Efficient Multimodal Edge Inference
- Title(参考訳): 効率的なマルチモーダルエッジ推論のためのモダリティを考慮したゼロショットプルーニングとスパースアテンション
- Authors: Yueyuan Sui, Payal Mohapatra, Doğaç Eldenk, Haodong Yang, Yiting Zhang, Haoyan Zhang, Qi Zhu, Stephen Xia,
- Abstract要約: マルチモーダルパイプラインは 正確でなければならない 変動する電力予算と予測不可能な センサーの落下にもかかわらず
SentryGateは、トレーニング中のモダリティ条件付き重要度スコアを、第一級サリエンシ監視を通じて学習する。
SentryFuseはメモリを28.2%削減し、さらに微調整することなく最大1.63タイムのレイテンシを下げる。
- 参考スコア(独自算出の注目度): 9.096132303386264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Edge devices increasingly run multimodal sensing pipelines that must remain accurate despite fluctuating power budgets and unpredictable sensor dropout. Existing pruning methods fail under these conditions: they generally require fine-tuning after compression, consuming over $10\times$ the deployment energy, and they assign static importance scores that are blind to which sensors are present. We present the SentryFuse framework, which addresses both challenges jointly through two key components. First, SentryGate learns modality-conditioned importance scores during training via first-order saliency supervision and then prunes attention heads and feed-forward channels at deployment without fine-tuning. Second, SentryAttend replaces dense self-attention, a key bottleneck in contemporary multimodal architectures, with sparse grouped-query attention, yielding a net 15% reduction in GFLOPs across three different multimodal architectures. Across three applications and multimodal backbones, SentryGate achieves a 12.7% average accuracy improvement over the strongest pruning baseline, and upto to 18% under modality dropout conditions. Together, SentryFuse reduces memory by 28.2% and lowers latency by up to $1.63\times$ without further fine-tuning, establishing modality-aware zero-shot compression as a practical path to multimodal intelligence on heterogeneous edge hardware.
- Abstract(参考訳): エッジデバイスは、変動する電力予算と予測不可能なセンサードロップアウトにもかかわらず、正確でなければならないマルチモーダルセンサーパイプラインをますます運用している。
既存のプルーニング手法は、これらの条件下では失敗する: 圧縮後の微調整が一般的に必要であり、デプロイエネルギの10ドル以上を消費し、どのセンサーが存在するかが見えないような静的な重要度スコアを割り当てる。
SentryFuseフレームワークは2つの重要なコンポーネントを通じて両課題に共同で対処する。
まず、SentryGateは、訓練中のモダリティ条件付き重要度スコアを1次サリエンシ監視を通じて学習し、その後、微調整なしでデプロイメント時に注意頭とフィードフォワードチャネルをプーンする。
第二に、SentryAttendは、現代マルチモーダルアーキテクチャにおける重要なボトルネックである密集自己注意を、疎グループクエリの注意に置き換え、三つの異なるマルチモーダルアーキテクチャにおけるGFLOPの純15%の削減をもたらす。
3つのアプリケーションとマルチモーダルのバックボーンで、SentryGateは最強プルーニングベースラインよりも平均12.7%の精度向上を実現し、モダリティの低下条件下では最大18%の精度を達成している。
SentryFuseは、メモリを28.2%削減し、さらに微調整なしで最大1.63\times$でレイテンシを下げ、異種エッジハードウェア上のマルチモーダルインテリジェンスへの実践的なパスとして、モダリティを意識したゼロショット圧縮を確立する。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T17:57:37Z) - Progressive Supernet Training for Efficient Visual Autoregressive Modeling [56.15415456746672]
本稿では,パラダイムとフルネットワークの両方の世代品質のフロンティアを突破するトレーニング戦略を提案する。
ImageNetの実験では、事前訓練されたVAR-d30、VARiant-d16、VARiant-d8と比べ、ほぼ同等の品質を実現している。
VARiant-d2は3.5倍のスピードアップと80%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-11-20T16:59:24Z) - Enabling Vibration-Based Gesture Recognition on Everyday Furniture via Energy-Efficient FPGA Implementation of 1D Convolutional Networks [11.481972015296812]
本研究では、低消費電力フィールドプログラマブルゲートアレイ(FPGA)上にコンパクトNNを展開させるエネルギー効率のよいソリューションを提案する。
我々は、複雑なスペクトル前処理を生波形入力に置き換え、複雑なオンボード前処理を不要とし、精度を犠牲にすることなく入力サイズを21倍削減する。
組み込みFPGAに適した2つの軽量アーキテクチャ(1D-CNNと1D-SepCNN)を設計し、パラメータを3億6900万から216に削減し、同等の精度を維持した。
論文 参考訳(メタデータ) (2025-10-27T09:30:36Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers [7.026182341295719]
Flash Omni は任意の DiT アーキテクチャと互換性のあるスパースアテンションエンジンである。
ほぼ直線で、注意力の空間比のスピードアップとGEMM-$Q$とをよく一致させ、GEMM-$O$で2.5$times$-3.8$times$Accelerationを達成している。
論文 参考訳(メタデータ) (2025-09-29T18:57:14Z) - Performance Characterization of a Multi-Module Quantum Processor with Static Inter-Chip Couplers [63.42120407991982]
フリップチップボンディングのような3次元統合技術は、大規模超伝導量子プロセッサを実現するための鍵となる前提条件である。
1つのキャリアチップと4つのキュービットモジュールからなるマルチチップモジュールの設計を提案する。
2つのキュービットを測定し,平均3レベル状態割当誤差を200 nsで9倍10~3ドルとした。
ランダム化ベンチマークから抽出した7×10〜3$の誤差で100 nsの制御Z2量子ゲートを実演する。
論文 参考訳(メタデータ) (2025-03-16T18:32:44Z) - Duo Streamers: A Streaming Gesture Recognition Framework [9.128440633129186]
Duo Streamersは、リソース制約のあるデバイスのためのストリーミングジェスチャー認識フレームワークである。
3段階のスパース認識機構、外部隠蔽状態のRNN-liteモデル、特別なトレーニングと後処理パイプラインを通じて、高精度で低レイテンシを実現する。
論文 参考訳(メタデータ) (2025-02-17T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。