論文の概要: Jointly-Learned Exit and Inference for a Dynamic Neural Network : JEI-DNN
- arxiv url: http://arxiv.org/abs/2310.09163v2
- Date: Fri, 10 May 2024 08:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:27:06.870853
- Title: Jointly-Learned Exit and Inference for a Dynamic Neural Network : JEI-DNN
- Title(参考訳): 動的ニューラルネットワークの連立学習と推論 : JEI-DNN
- Authors: Florence Regol, Joud Chataoui, Mark Coates,
- Abstract要約: 早期排他的動的ニューラルネットワーク(EDNN)は、中間層(即ち早期排他)からの予測の一部をモデルが行うことを可能にする。
EDNNアーキテクチャのトレーニングは、初期出力決定を制御するゲーティング機構(GM)と中間表現からの推論を実行する中間推論モジュール(IM)の2つのコンポーネントで構成されるため、難しい。
本稿では,これら2つのモジュールを接続する新しいアーキテクチャを提案する。これにより分類データセットの性能が大幅に向上し,不確実性評価機能の向上が期待できる。
- 参考スコア(独自算出の注目度): 20.380620709345898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pretrained models, coupled with fine-tuning, are slowly becoming established as the dominant architecture in machine learning. Even though these models offer impressive performance, their practical application is often limited by the prohibitive amount of resources required for every inference. Early-exiting dynamic neural networks (EDNN) circumvent this issue by allowing a model to make some of its predictions from intermediate layers (i.e., early-exit). Training an EDNN architecture is challenging as it consists of two intertwined components: the gating mechanism (GM) that controls early-exiting decisions and the intermediate inference modules (IMs) that perform inference from intermediate representations. As a result, most existing approaches rely on thresholding confidence metrics for the gating mechanism and strive to improve the underlying backbone network and the inference modules. Although successful, this approach has two fundamental shortcomings: 1) the GMs and the IMs are decoupled during training, leading to a train-test mismatch; and 2) the thresholding gating mechanism introduces a positive bias into the predictive probabilities, making it difficult to readily extract uncertainty information. We propose a novel architecture that connects these two modules. This leads to significant performance improvements on classification datasets and enables better uncertainty characterization capabilities.
- Abstract(参考訳): 大規模な事前学習モデルと微調整が組み合わさって、機械学習における支配的なアーキテクチャとして徐々に確立されつつある。
これらのモデルは印象的な性能を提供するが、その実践的応用は、推論毎に必要となるリソースの禁止量によって制限されることが多い。
早期排他的動的ニューラルネットワーク(EDNN)は、モデルが中間層(早期排他層)から予測の一部を行えるようにすることでこの問題を回避する。
EDNNアーキテクチャのトレーニングは、初期出力決定を制御するゲーティング機構(GM)と中間表現からの推論を実行する中間推論モジュール(IM)の2つのコンポーネントで構成されるため、難しい。
その結果、既存のほとんどのアプローチは、ゲーティングメカニズムのしきい値のしきい値に頼り、基盤となるバックボーンネットワークと推論モジュールを改善しようとしている。
このアプローチは成功したが、根本的な欠点は2つある。
1)GMとIMはトレーニング中に分離され、列車試験ミスマッチにつながる。
2)閾値ゲーティング機構は,予測確率に正のバイアスをもたらすため,不確実性情報を容易に抽出することが困難である。
これら2つのモジュールを接続する新しいアーキテクチャを提案する。
これにより、分類データセットのパフォーマンスが大幅に向上し、不確実性評価機能が改善される。
関連論文リスト
- LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Amortised Inference in Bayesian Neural Networks [0.0]
Amortized Pseudo-Observation Variational Inference Bayesian Neural Network (APOVI-BNN)を紹介する。
補正された推論は、従来の変分推論によって得られたものと類似または良好な品質であることが示される。
次に、APOVI-BNNをニューラルプロセスファミリーの新たなメンバーと見なす方法について論じる。
論文 参考訳(メタデータ) (2023-09-06T14:02:33Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Characterizing and Understanding the Behavior of Quantized Models for
Reliable Deployment [32.01355605506855]
量子化対応トレーニングは、標準、逆数、ミックスアップトレーニングよりも安定したモデルを生成することができる。
診断は、しばしばトップ1とトップ2の出力確率に近づき、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。
我々は、量子化されたモデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソース化した。
論文 参考訳(メタデータ) (2022-04-08T11:19:16Z) - Interpretable part-whole hierarchies and conceptual-semantic
relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。
本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T10:56:13Z) - Obtaining Faithful Interpretations from Compositional Neural Networks [72.41100663462191]
NLVR2およびDROPデータセット上でNMNの中間出力を評価する。
中間出力は期待出力と異なり,ネットワーク構造がモデル動作の忠実な説明を提供していないことを示す。
論文 参考訳(メタデータ) (2020-05-02T06:50:35Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。