論文の概要: DART: Input-Difficulty-AwaRe Adaptive Threshold for Early-Exit DNNs
- arxiv url: http://arxiv.org/abs/2603.12269v1
- Date: Tue, 17 Feb 2026 10:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.192413
- Title: DART: Input-Difficulty-AwaRe Adaptive Threshold for Early-Exit DNNs
- Title(参考訳): DART: 早期のDNNのための入力困難AwaRe適応閾値
- Authors: Parth Patne, Mahdi Taheri, Christian Herglotz, Maksim Jenihhin, Milos Krstic, Michael Hübner,
- Abstract要約: 早期の深層ニューラルネットワークは、十分な信頼が得られれば、計算を終了することで適応推論を可能にする。
本稿では,制限を克服するフレームワークであるDART(Input-Difficulty-Aware Adaptive Threshold)を紹介する。
様々なベンチマーク実験により、DARTは、静的ネットワークと比較して平均電力を最大でtextbf3.3$times$ speedup、 textbf5.1$times$low Energy、 textbf42%低い平均電力を達成することが示されている。
- 参考スコア(独自算出の注目度): 2.414573691768006
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Early-exit deep neural networks enable adaptive inference by terminating computation when sufficient confidence is achieved, reducing cost for edge AI accelerators in resource-constrained settings. Existing methods, however, rely on suboptimal exit policies, ignore input difficulty, and optimize thresholds independently. This paper introduces DART (Input-Difficulty-Aware Adaptive Threshold), a framework that overcomes these limitations. DART introduces three key innovations: (1) a lightweight difficulty estimation module that quantifies input complexity with minimal computational overhead, (2) a joint exit policy optimization algorithm based on dynamic programming, and (3) an adaptive coefficient management system. Experiments on diverse DNN benchmarks (AlexNet, ResNet-18, VGG-16) demonstrate that DART achieves up to \textbf{3.3$\times$} speedup, \textbf{5.1$\times$} lower energy, and up to \textbf{42\%} lower average power compared to static networks, while preserving competitive accuracy. Extending DART to Vision Transformers (LeViT) yields power (5.0$\times$) and execution-time (3.6$\times$) gains but also accuracy loss (up to 17 percent), underscoring the need for transformer-specific early-exit mechanisms. We further introduce the Difficulty-Aware Efficiency Score (DAES), a novel multi-objective metric, under which DART achieves up to a 14.8 improvement over baselines, highlighting superior accuracy, efficiency, and robustness trade-offs.
- Abstract(参考訳): 初期段階のディープニューラルネットワークは、十分な信頼性を達成すると計算を終了し、リソース制約のある設定でエッジAIアクセラレータのコストを削減することで、適応推論を可能にする。
しかし、既存の方法は、最適でない出口ポリシーに依存し、入力困難を無視し、独立して閾値を最適化する。
本稿では,これらの制約を克服するフレームワークであるDART(Input-Difficulty-Aware Adaptive Threshold)を紹介する。
DARTは,(1)計算オーバーヘッドを最小限に抑えた入力複雑性を定量化する軽量な難易度推定モジュール,(2)動的プログラミングに基づく共同終了ポリシー最適化アルゴリズム,(3)適応係数管理システムを導入している。
多様なDNNベンチマーク(AlexNet、ResNet-18、VGG-16)の実験では、DARTは静的ネットワークと比較して、競争精度を保ちながら、最大で \textbf{3.3$\times$} のスピードアップ、 \textbf{5.1$\times$} の低エネルギー、最大で \textbf{42\%} の平均電力を達成することを示した。
DARTからVision Transformers(LeViT)への拡張はパワー(5.0$\times$)と実行時間(3.6$\times$)のゲインをもたらすが、精度の低下(最大17%)はトランスフォーマー固有の早期退避機構の必要性を暗示している。
さらに、DARTがベースラインよりも14.8の改善を達成し、精度、効率、堅牢性のトレードオフを強調した、新しい多目的メトリックであるDifficulty-Aware efficiency Score (DAES)を紹介する。
関連論文リスト
- DART-ing Through the Drift: Dynamic Tracing of Knowledge Neurons for Adaptive Inference-Time Pruning [6.3691159627915015]
DARTは、オンザフライでコンテキストベースプルーニングを行う軽量なトレーニングフリー手法である。
DARTは分布の変化を監視し、文脈変化を推測し、ニューロンレベルのマスクを動的に更新し、正常なパラメータを保持する。
LLAMA-3.1-8Bでは、70%のFFN間隔で14.5%の精度向上を実現し、3倍のROUGE-Lスコアが得られる。
論文 参考訳(メタデータ) (2026-01-30T06:48:16Z) - DARN: Dynamic Adaptive Regularization Networks for Efficient and Robust Foundation Model Adaptation [0.0]
動的適応正規化ネットワーク(DARN)を導入する。
DARNは、サンプルごとの難易度を推定する軽量タスク複雑度予測器(TCP)、適応ドロップアウト変調(ADM)、動的キャパシティゲーティング(DCG)の3つの重要なイノベーションを統合している。
完全な微調整(非凍結バックボーン)において、DARN はマルチタスク GeoBench ベンチマーク (86.66% mIoU, +5.56 pp over earlier SOTA) で新しい最先端を達成する。
効率的な適応(凍結バックボーン)において、DARNはSen上でSOTA競合精度(90.5% mIoU)を達成する
論文 参考訳(メタデータ) (2025-11-06T19:36:49Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。
このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。
その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文 参考訳(メタデータ) (2025-06-10T13:33:02Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - VEXP: A Low-Cost RISC-V ISA Extension for Accelerated Softmax Computation in Transformers [13.984340807378457]
ソフトマックスの加速は、非ポイント、非線形の性質のために困難であり、指数が最も要求されるステップである。
シュラウドルフ法に基づく新しい近似アルゴリズムを用いて, Bfloat16指数の算術ブロックを設計する。
我々は162.7$times$低レイテンシと74.3$times$低エネルギーでSoftmaxを実行する。
論文 参考訳(メタデータ) (2025-04-15T14:28:48Z) - Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference [22.9834921448069]
我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
論文 参考訳(メタデータ) (2023-06-08T09:23:46Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。