論文の概要: EBJR: Energy-Based Joint Reasoning for Adaptive Inference
- arxiv url: http://arxiv.org/abs/2110.10343v1
- Date: Wed, 20 Oct 2021 02:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 13:56:08.645323
- Title: EBJR: Energy-Based Joint Reasoning for Adaptive Inference
- Title(参考訳): EBJR:適応推論のためのエネルギーベース共同推論
- Authors: Mohammad Akbari, Amin Banitalebi-Dehkordi, Yong Zhang
- Abstract要約: 最先端のディープラーニングモデルは、さまざまなベンチマークで大きなパフォーマンスレベルを達成した。
一方、軽量アーキテクチャは適度な精度を実現しますが、より望ましいレイテンシを実現しています。
本稿では,大規模高精度モデルと小型高速モデルとを併用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.447353952054492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art deep learning models have achieved significant performance
levels on various benchmarks. However, the excellent performance comes at a
cost of inefficient computational cost. Light-weight architectures, on the
other hand, achieve moderate accuracies, but at a much more desirable latency.
This paper presents a new method of jointly using the large accurate models
together with the small fast ones. To this end, we propose an Energy-Based
Joint Reasoning (EBJR) framework that adaptively distributes the samples
between shallow and deep models to achieve an accuracy close to the deep model,
but latency close to the shallow one. Our method is applicable to
out-of-the-box pre-trained models as it does not require an architecture change
nor re-training. Moreover, it is easy to use and deploy, especially for cloud
services. Through a comprehensive set of experiments on different down-stream
tasks, we show that our method outperforms strong state-of-the-art approaches
with a considerable margin. In addition, we propose specialized EBJR, an
extension of our method where we create a smaller specialized side model that
performs the target task only partially, but yields an even higher accuracy and
faster inference. We verify the strengths of our methods with both theoretical
and experimental evaluations.
- Abstract(参考訳): 最先端のディープラーニングモデルは、さまざまなベンチマークで大きなパフォーマンスレベルを達成した。
しかし、優れた性能には非効率な計算コストが伴う。
一方、軽量アーキテクチャは適度な精度を実現しますが、より望ましいレイテンシを実現しています。
本稿では,大規模高精度モデルと小型高速モデルとを併用する新しい手法を提案する。
そこで本研究では,浅層モデルと深層モデルの間で試料を適応的に分配し,深部モデルに近い精度を達成し,浅部モデルに近いレイテンシを実現するEnergy-Based Joint Reasoning (EBJR) フレームワークを提案する。
本手法は,アーキテクチャ変更や再トレーニングを必要とせず,事前学習モデルに適用できる。
さらに、特にクラウドサービスでは、使いやすく、デプロイも簡単です。
さまざまなダウンストリームタスクに関する総合的な実験を通じて,本手法が最先端のアプローチをかなりマージンで上回っていることを示す。
さらに,対象タスクを部分的にしか実行しないが,さらに精度が向上し,より高速な推論を実現するための,より小さな専用サイドモデルを作成するための,ebjr法の拡張を提案する。
提案手法の強度を理論的および実験的評価の両方で検証する。
関連論文リスト
- TFG: Unified Training-Free Guidance for Diffusion Models [82.14536097768632]
トレーニング不要のガイダンスは、追加のトレーニングなしで望ましい目標特性を持つサンプルを生成することができる。
既存の手法は様々な個別の用途で有効であるが、理論的な根拠と広範囲なベンチマークでの厳密な試験が欠如していることが多い。
本稿では,既存の手法を特殊な事例として包含する新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:31:17Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Distill-then-prune: An Efficient Compression Framework for Real-time Stereo Matching Network on Edge Devices [5.696239274365031]
本稿では, 知識蒸留とモデルプルーニングを取り入れて, 速度と精度のトレードオフを克服し, 新たな戦略を提案する。
エッジデバイスに高い精度を提供しながら、リアルタイム性能を維持するモデルを得た。
論文 参考訳(メタデータ) (2024-05-20T06:03:55Z) - Selective Mixup Fine-Tuning for Optimizing Non-Decomposable Objectives [17.10165955576643]
現在の最先端の実証技術は、実用的で非分解不能な性能目標に対して、準最適性能を提供する。
本稿では,SelMixを提案する。SelMixは,事前学習モデルに対して,選択型ミキサアップに基づく安価な微調整技術である。
提案したSelMixファインタニングにより,ベンチマーク間での様々な非分解性目標の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:55:23Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - HCE: Improving Performance and Efficiency with Heterogeneously
Compressed Neural Network Ensemble [22.065904428696353]
最近のアンサンブルトレーニング手法では,同じモデルアーキテクチャを持つ複数のサブモデルの異なるトレーニングアルゴリズムや設定を探索している。
我々は、事前訓練されたDNNモデルから、切断された量子化された変種と効率的なアンサンブルを構築するヘテロジェネリー圧縮アンサンブル(HCE)を提案する。
論文 参考訳(メタデータ) (2023-01-18T21:47:05Z) - Follow Your Path: a Progressive Method for Knowledge Distillation [23.709919521355936]
本稿では,教師モデルの指導信号を学生のパラメータ空間に投影することで,新しいモデルに依存しないProKTを提案する。
画像とテキストの双方で実験した結果,提案したProKTは既存の知識蒸留法と比較して常に優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2021-07-20T07:44:33Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Performance of Hyperbolic Geometry Models on Top-N Recommendation Tasks [72.62702932371148]
標準的な協調フィルタリング問題の解法として,双曲幾何学に基づく単純なオートエンコーダを提案する。
現代の多くのディープラーニング技術とは対照的に、私たちは単一の隠れレイヤのみを使用してソリューションを構築します。
論文 参考訳(メタデータ) (2020-08-15T13:21:10Z) - Speedy Performance Estimation for Neural Architecture Search [47.683124540824515]
そこで本研究では,トレーニング速度の簡易な測定値に基づいて最終試験性能を推定する。
我々の推定器は、一般化と学習速度の関連によって理論的に動機付けられている。
論文 参考訳(メタデータ) (2020-06-08T11:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。