論文の概要: Ask the Expert: Collaborative Inference for Vision Transformers with Near-Edge Accelerators
- arxiv url: http://arxiv.org/abs/2602.13334v1
- Date: Wed, 11 Feb 2026 14:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.924448
- Title: Ask the Expert: Collaborative Inference for Vision Transformers with Near-Edge Accelerators
- Title(参考訳): Ask the Expert: 近縁加速器を用いたビジョントランスフォーマーの協調推論
- Authors: Hao Liu, Suhaib A. Fahmy,
- Abstract要約: 我々のフレームワークは、エッジデバイス上で軽量なジェネラリストViTと、近縁アクセラレータ上で複数の中規模のエキスパートViTを編成する。
提案手法は,エッジ実行と比較してレイテンシを最大45%削減し,エネルギー消費を最大46%削減する。
- 参考スコア(独自算出の注目度): 5.176395449605927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying Vision Transformers on edge devices is challenging due to their high computational complexity, while full offloading to cloud resources presents significant latency overheads. We propose a novel collaborative inference framework, which orchestrates a lightweight generalist ViT on an edge device and multiple medium-sized expert ViTs on a near-edge accelerator. A novel routing mechanism uses the edge model's Top-$\mathit{k}$ predictions to dynamically select the most relevant expert for samples with low confidence. We further design a progressive specialist training strategy to enhance expert accuracy on dataset subsets. Extensive experiments on the CIFAR-100 dataset using a real-world edge and near-edge testbed demonstrate the superiority of our framework. Specifically, the proposed training strategy improves expert specialization accuracy by 4.12% on target subsets and enhances overall accuracy by 2.76% over static experts. Moreover, our method reduces latency by up to 45% compared to edge execution, and energy consumption by up to 46% compared to just near-edge offload.
- Abstract(参考訳): エッジデバイスにビジョントランスフォーマーをデプロイすることは、計算の複雑さが高いため、難しい。
本稿では、エッジデバイス上で軽量なジェネラリストViTと、近縁アクセラレータ上で複数の中規模のエキスパートViTをオーケストレーションする、新しい協調推論フレームワークを提案する。
新たなルーティングメカニズムは、エッジモデルのTop-$\mathit{k}$予測を使用して、信頼性の低いサンプルに対して最も関連性の高い専門家を動的に選択する。
さらに、データセットサブセットの精度を高めるために、プログレッシブ・スペシャリストのトレーニング戦略を設計する。
実世界のエッジと近縁テストベッドを用いたCIFAR-100データセットの大規模な実験により、我々のフレームワークの優位性を実証した。
具体的には、提案したトレーニング戦略により、ターゲットサブセットの専門化精度が4.12%向上し、静的エキスパートよりも総合的精度が2.76%向上する。
さらに,本手法は,エッジ実行に比べて最大で45%の遅延を低減し,エネルギー消費はわずかにエッジオフロードよりも最大で46%の遅延を減少させる。
関連論文リスト
- Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design [72.55935017828891]
我々は Le-DETR (textbfLow- Cost and textbfEfficient textbfDEtection textbfTRansformer) を提案する。
ImageNet1KとCOCO 2017トレーニングデータセットのみを使用して、リアルタイム検出で新しいtextbfSOTAを実現する。
YOLOv12-L/X を textbf+0.6/-0.1 mAP で上回り、同様の速度と textbf+20% のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-24T15:29:55Z) - Lightweight Transformer Architectures for Edge Devices in Real-Time Applications [0.0]
本調査では,エッジデプロイメント用に設計された軽量トランスフォーマーアーキテクチャについて検討する。
我々は、MobileBERT、TinyBERT、DistilBERT、EfficientFormer、EdgeFormer、MobileViTなど、注目すべき軽量版を体系的にレビューした。
実験により, モデルサイズを4~10倍, 推論遅延を3~9倍削減し, モデル精度を75~96%向上できることを確認した。
論文 参考訳(メタデータ) (2026-01-05T01:04:25Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - ECORE: Energy-Conscious Optimized Routing for Deep Learning Models at the Edge [17.74343318260183]
ECOREは、複数の動的ルーティング戦略を統合するフレームワークである。
ECOREは、物体の特性に基づいてエネルギー効率と検出性能のバランスをとる。
その結果,提案したコンテキスト対応ルーティング手法は,エネルギー消費と遅延をそれぞれ35%,遅延を49%削減できることがわかった。
論文 参考訳(メタデータ) (2025-07-08T14:16:14Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Fusing Pretrained ViTs with TCNet for Enhanced EEG Regression [0.07999703756441758]
本稿では、脳波回帰の精度を高めるために、事前訓練された視覚変換器(ViT)と時間畳み込みネットワーク(TCNet)の統合について詳述する。
以上の結果から, 回転平均角誤差(RMSE)を55.4から51.8に低減した。
性能を犠牲にすることなく、このモデルの速度を桁違いに向上させる(最大4.32倍高速)。
論文 参考訳(メタデータ) (2024-04-02T17:01:51Z) - EdgeOL: Efficient in-situ Online Learning on Edge Devices [51.86178757050963]
予測精度、微調整実行時間、エネルギー効率を最適化するエッジオンライン学習フレームワークであるEdgeOLを提案する。
実験結果から、EdgeOLは、全体の微調整実行時間を64%削減し、エネルギー消費を52%削減し、オンラインの即時学習戦略よりも平均推定精度を1.75%向上させることがわかった。
論文 参考訳(メタデータ) (2024-01-30T02:41:05Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks [73.88590165742721]
本稿では,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練手法を提案する。
本手法は, 対戦学習の最小値最適化において, シングルタスクモデルをマルチタスクモデルに拡張する。
我々は、ガイド付きマルチタスク学習が、モデルロバスト性の境界をさらに推し進めるために、実践的で有望な方法であることを実証する。
論文 参考訳(メタデータ) (2023-02-06T16:23:24Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。