論文の概要: Surprisal-Triggered Conditional Computation with Neural Networks
- arxiv url: http://arxiv.org/abs/2006.01659v1
- Date: Tue, 2 Jun 2020 14:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:37:31.532014
- Title: Surprisal-Triggered Conditional Computation with Neural Networks
- Title(参考訳): ニューラルネットワークによる素トラガード条件計算
- Authors: Loren Lugosch, Derek Nowrouzezahrai, Brett H. Meyer
- Abstract要約: 自己回帰ニューラルネットワークモデルは、シーケンス生成、特徴抽出、仮説スコアリングに成功している。
本稿では,これらのモデルに対して,より複雑な入力により多くの計算を割り当てる,という新たな利用法を提案する。
- 参考スコア(独自算出の注目度): 19.55737970532817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive neural network models have been used successfully for sequence
generation, feature extraction, and hypothesis scoring. This paper presents yet
another use for these models: allocating more computation to more difficult
inputs. In our model, an autoregressive model is used both to extract features
and to predict observations in a stream of input observations. The surprisal of
the input, measured as the negative log-likelihood of the current observation
according to the autoregressive model, is used as a measure of input
difficulty. This in turn determines whether a small, fast network, or a big,
slow network, is used. Experiments on two speech recognition tasks show that
our model can match the performance of a baseline in which the big network is
always used with 15% fewer FLOPs.
- Abstract(参考訳): 自己回帰型ニューラルネットワークモデルは、シーケンス生成、特徴抽出、仮説スコアリングに成功している。
本稿では,より難しい入力により多くの計算を割り当てるという,これらのモデルの新たな用途について述べる。
我々のモデルでは、特徴抽出と入力観測のストリームにおける観測予測の両方に自己回帰モデルが用いられる。
自己回帰モデルによる現在の観測の負の対数類似度として測定された入力の仮定を入力困難度尺度として用いる。
これにより、小さくて高速なネットワーク、あるいは大きな遅いネットワークが使用されるかどうかが決定される。
2つの音声認識タスクの実験により、我々のモデルは、大きなネットワークが常に使用されるベースラインの性能と15%少ないFLOPで一致できることが示される。
関連論文リスト
- Power Failure Cascade Prediction using Graph Neural Networks [4.667031410586657]
本稿では,初期コンテンジェンシーと電力注入値が与えられたカスケードプロセスの各世代におけるグリッド状態を予測するフローフリーモデルを提案する。
提案モデルにより,計算時間をほぼ2桁に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-24T18:45:50Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Instance-wise Linearization of Neural Network for Model Interpretation [13.583425552511704]
この課題は、ニューラルネットワークの非線形動作に潜むことができる。
ニューラルネットワークモデルでは、非線形な振る舞いはモデルの非線形なアクティベーションユニットによって引き起こされることが多い。
本稿では,ニューラルネットワーク予測のフォワード計算過程を再構成するインスタンスワイズ線形化手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T02:07:39Z) - Deep Networks as Denoising Algorithms: Sample-Efficient Learning of
Diffusion Models in High-Dimensional Graphical Models [22.353510613540564]
生成モデルにおけるディープニューラルネットワークによるスコア関数の近似効率について検討する。
楽譜関数はしばしば変分推論法を用いてグラフィカルモデルでよく近似される。
深層ニューラルネットワークによってスコア関数が学習されるとき,拡散に基づく生成モデルに縛られた効率的なサンプル複雑性を提供する。
論文 参考訳(メタデータ) (2023-09-20T15:51:10Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Improving Video Instance Segmentation by Light-weight Temporal
Uncertainty Estimates [11.580916951856256]
本稿では,インスタンスセグメンテーションネットワークの不確かさをモデル化するための時間動的手法を提案する。
本稿では,偽陽性の検出と予測品質の推定に本手法を適用した。
提案手法は、容易に訓練されたニューラルネットワークとビデオシーケンス入力のみを必要とする。
論文 参考訳(メタデータ) (2020-12-14T13:39:05Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Dynamic Time Warping as a New Evaluation for Dst Forecast with Machine
Learning [0.0]
ニューラルネットワークをトレーニングして、発生時刻の暴風雨時指数を1時間から6時間まで予測する。
相関係数とRMSEによるモデルの結果の検査により,最新の論文に匹敵する性能を示した。
2つの時系列が互いに時間的にずれているかどうかを測定するために,新しい手法を提案する。
論文 参考訳(メタデータ) (2020-06-08T15:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。