論文の概要: Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding
- arxiv url: http://arxiv.org/abs/2301.03765v1
- Date: Tue, 10 Jan 2023 03:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:38:06.640360
- Title: Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding
- Title(参考訳): 言語理解における神経機能向上のためのクロスモデル比較損失
- Authors: Yunchang Zhu, Liang Pang, Kangxi Wu, Yanyan Lan, Huawei Shen, Xueqi
Cheng
- Abstract要約: 幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
- 参考スコア(独自算出の注目度): 65.66209032981541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current natural language understanding (NLU) models have been continuously
scaling up, both in terms of model size and input context, introducing more
hidden and input neurons. While this generally improves performance on average,
the extra neurons do not yield a consistent improvement for all instances. This
is because some hidden neurons are redundant, and the noise mixed in input
neurons tends to distract the model. Previous work mainly focuses on
extrinsically reducing low-utility neurons by additional post- or
pre-processing, such as network pruning and context selection, to avoid this
problem. Beyond that, can we make the model reduce redundant parameters and
suppress input noise by intrinsically enhancing the utility of each neuron? If
a model can efficiently utilize neurons, no matter which neurons are ablated
(disabled), the ablated submodel should perform no better than the original
full model. Based on such a comparison principle between models, we propose a
cross-model comparative loss for a broad range of tasks. Comparative loss is
essentially a ranking loss on top of the task-specific losses of the full and
ablated models, with the expectation that the task-specific loss of the full
model is minimal. We demonstrate the universal effectiveness of comparative
loss through extensive experiments on 14 datasets from 3 distinct NLU tasks
based on 4 widely used pretrained language models, and find it particularly
superior for models with few parameters or long input.
- Abstract(参考訳): 現在の自然言語理解(NLU)モデルは、モデルサイズと入力コンテキストの両方の観点から継続的にスケールアップされ、より隠された入力ニューロンが導入されている。
これは概して平均的なパフォーマンスを改善するが、余分なニューロンは全てのインスタンスに対して一貫した改善をもたらすわけではない。
これは、いくつかの隠れたニューロンが冗長であり、入力ニューロンに混ざったノイズがモデルに注意をそらす傾向があるためである。
従来の研究は主に、この問題を避けるために、ネットワークプルーニングやコンテキスト選択といった後処理や前処理を追加することで、低ユーティリティニューロンを極端に削減することに焦点を当てていた。
さらに、各ニューロンの有用性を本質的に強化することにより、冗長パラメータの削減と入力ノイズの抑制が可能であるか?
モデルがニューロンを効果的に活用できる場合、どのニューロンが消滅したとしても(無効)、そのサブモデルは元の完全モデルに勝るものでなければならない。
このようなモデル間の比較原理に基づいて,幅広いタスクに対するクロスモデル比較損失を提案する。
比較損失は、基本的に、フルモデルとアブレーションモデルのタスク固有の損失の上位のランキングロスであり、フルモデルのタスク固有の損失は最小であると予想されている。
3つの異なるnluタスクから得られた14のデータセットを、4つのトレーニング済み言語モデルに基づいて広範囲に実験し、比較損失の普遍的効果を実証し、パラメータや長い入力の少ないモデルに特に優れていることを見出した。
関連論文リスト
- Magnificent Minified Models [0.360953887026184]
本論文は、大規模なトレーニングニューラルネットワークを「圧縮」し、パラメータやニューロン全体を削除することで、より小さくするタスクを自覚する。
パラメータとニューロン選択の様々な方法を比較する:ドロップアウトベースニューロン損傷推定、ニューロンのマージ、絶対値ベース選択、ランダム選択。
ニューロンレベルのプルーニングでは、スクラッチから再トレーニングを行うことで、実験はずっと良くなりました。
論文 参考訳(メタデータ) (2023-06-16T21:00:44Z) - Inferring Population Dynamics in Macaque Cortex [0.0]
我々は、リカレントニューラルネットワーク(RNN)に基づくシンプルで汎用的なアーキテクチャが、より多くの"bespoke"モデルより優れていることを示す。
我々は、RNNが課す自己回帰バイアスが最高レベルのパフォーマンスを達成するために重要であると論じる。
論文 参考訳(メタデータ) (2023-04-05T14:24:27Z) - Neural Additive Models for Location Scale and Shape: A Framework for
Interpretable Neural Regression Beyond the Mean [1.0923877073891446]
ディープニューラルネットワーク(DNN)は、様々なタスクで非常に効果的であることが証明されている。
この成功にもかかわらず、DNNの内部構造はしばしば透明ではない。
この解釈可能性の欠如は、本質的に解釈可能なニューラルネットワークの研究の増加につながった。
論文 参考訳(メタデータ) (2023-01-27T17:06:13Z) - Supervised Parameter Estimation of Neuron Populations from Multiple
Firing Events [3.2826301276626273]
本研究では,一対のスパイキング系列とパラメータラベルからなる学習セットから,ニューロン集団のパラメータを自動的に学習する手法について,教師あり学習を通して検討した。
我々は、ニューロンモデルを用いて、異なるパラメータ設定での計算において多くのニューロン集団をシミュレートする。
次に、遺伝的検索、ベイズ逐次推定、ランダムウォーク近似モデルなどの古典的手法と比較する。
論文 参考訳(メタデータ) (2022-10-02T03:17:05Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Neural Additive Models: Interpretable Machine Learning with Neural Nets [77.66871378302774]
ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて優れたパフォーマンスを達成した強力なブラックボックス予測器である。
本稿では、DNNの表現性と一般化した加法モデルの固有知性を組み合わせたニューラル付加モデル(NAM)を提案する。
NAMは、ニューラルネットワークの線形結合を学び、それぞれが単一の入力機能に付随する。
論文 参考訳(メタデータ) (2020-04-29T01:28:32Z) - Investigation and Analysis of Hyper and Hypo neuron pruning to
selectively update neurons during Unsupervised Adaptation [8.845660219190298]
プルーニングアプローチは、モデルの決定に寄与しない低塩性ニューロンを求める。
この研究は、プルーニングアプローチが、高塩分(主に活性または超活性)または低塩分(ほとんど活性または偽)のニューロンを検出することに成功しているかどうかを調査する。
これは、まず特定のニューロン(高次ニューロンと低次ニューロンからなる)を選択的に適応させ、次にフルネットワークの微調整を行うことが可能であることを示している。
論文 参考訳(メタデータ) (2020-01-06T19:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。