論文の概要: Stolen Probability: A Structural Weakness of Neural Language Models
- arxiv url: http://arxiv.org/abs/2005.02433v1
- Date: Tue, 5 May 2020 18:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 13:31:35.097037
- Title: Stolen Probability: A Structural Weakness of Neural Language Models
- Title(参考訳): 盗まれた確率:ニューラルネットワークモデルの構造的弱点
- Authors: David Demeter, Gregory Kimmel and Doug Downey
- Abstract要約: NNLMは、高次元埋め込み空間において、全ての単語ベクトルで予測ベクトルのドット積を取ることによって形成される距離メートル法にソフトマックス関数を適用して確率分布を生成する。
この結果、確率を割り当てる際、他の単語を犠牲にして構造的に不当に表現する埋め込み空間の準最適順序が導かれることを示す。
- 参考スコア(独自算出の注目度): 20.180492071526697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Network Language Models (NNLMs) generate probability distributions by
applying a softmax function to a distance metric formed by taking the dot
product of a prediction vector with all word vectors in a high-dimensional
embedding space. The dot-product distance metric forms part of the inductive
bias of NNLMs. Although NNLMs optimize well with this inductive bias, we show
that this results in a sub-optimal ordering of the embedding space that
structurally impoverishes some words at the expense of others when assigning
probability. We present numerical, theoretical and empirical analyses showing
that words on the interior of the convex hull in the embedding space have their
probability bounded by the probabilities of the words on the hull.
- Abstract(参考訳): ニューラルネットワーク言語モデル(nnlms)は、高次元埋め込み空間において、すべての単語ベクトルを含む予測ベクトルのドット積を成す距離計量にソフトマックス関数を適用して確率分布を生成する。
ドット積距離計量は、NNLMの誘導バイアスの一部を構成する。
NNLMは、この帰納バイアスをうまく最適化するが、この結果、確率を割り当てる際に、いくつかの単語を犠牲にして構造的に不利益にする埋め込み空間の準最適順序が導かれることを示す。
本研究では,包絡空間内の凸殻の内部にある単語が,包絡空間上の単語の確率によってその確率が制限されていることを示す数値的,理論的,実証的な分析を行った。
関連論文リスト
- Fast, accurate and lightweight sequential simulation-based inference using Gaussian locally linear mappings [0.820217860574125]
シミュレーションベース推論(SBI)の代替として,確率と後部分布の両方を近似する手法を提案する。
提案手法は,マルチモーダル後部であっても,最先端NNベースのSBI法と比較して正確な後部推測を導出する。
本研究は,SBI文献から得られたいくつかのベンチマークモデルと,mRNAトランスフェクション後の翻訳動態の生物学的モデルについて述べる。
論文 参考訳(メタデータ) (2024-03-12T09:48:17Z) - Recurrent Neural Language Models as Probabilistic Finite-state Automata [66.23172872811594]
RNN LMが表現できる確率分布のクラスについて検討する。
単純なRNNは確率的有限状態オートマトンの部分クラスと同値であることを示す。
これらの結果は、RNN LMが表現できる分布のクラスを特徴付けるための第一歩を示す。
論文 参考訳(メタデータ) (2023-10-08T13:36:05Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Learning Structured Gaussians to Approximate Deep Ensembles [10.055143995729415]
本稿では,スパース構造多変量ガウシアンを用いて,高密度画像予測タスクのための閉形式近似器を提案する。
正規分布における予測の不確かさと構造的相関を、サンプリング単独で暗黙的にではなく、明示的に捉える。
単分子深度推定におけるアプローチの利点を実証し,本手法の利点が同等の定量的性能で得られることを示す。
論文 参考訳(メタデータ) (2022-03-29T12:34:43Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Universal Approximation Property of Neural Ordinary Differential
Equations [19.861764482790544]
我々は NODE が一定の条件下で連続写像に対して$Lp$-universal approximator を形成することを示す。
また、それらのより強い近似特性、すなわち、大きな微分同相類を近似する$sup$-ユニバーサリティを示す。
論文 参考訳(メタデータ) (2020-12-04T05:53:21Z) - Probability-Density-Based Deep Learning Paradigm for the Fuzzy Design of
Functional Metastructures [6.437896705894243]
量子力学において、ノルム二乗波動関数は、与えられた位置または運動量で測定される粒子の確率を記述する確率密度として解釈することができる。
本稿では,機能的メタ構造のファジィ設計のための確率密度に基づくディープラーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2020-11-11T02:22:46Z) - General stochastic separation theorems with optimal bounds [68.8204255655161]
分離性の現象が明らかになり、機械学習で人工知能(AI)システムのエラーを修正し、AI不安定性を分析するために使用された。
エラーやエラーのクラスタは、残りのデータから分離することができる。
AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、同じ分離性によって引き起こされる脆弱性を誘発する。
論文 参考訳(メタデータ) (2020-10-11T13:12:41Z) - Max-Affine Spline Insights into Deep Generative Networks [8.579613053834342]
我々は,GDN(Generative Deep Networks)の大規模なクラスをスプライン演算子と接続し,それらの特性,制限,新たな機会を導出する。
生成した多様体の潜在空間分割、次元、角度を特徴付けることにより、多様体次元と近似誤差とサンプルサイズを関連付ける。
生成多様体上の出力確率密度を潜在空間密度の観点から導出し、シャノンエントロピーのような重要な統計量の計算を可能にする。
論文 参考訳(メタデータ) (2020-02-26T00:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。