論文の概要: A Probabilistic Representation of Deep Learning for Improving The
Information Theoretic Interpretability
- arxiv url: http://arxiv.org/abs/2010.14054v1
- Date: Tue, 27 Oct 2020 05:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:17:40.340602
- Title: A Probabilistic Representation of Deep Learning for Improving The
Information Theoretic Interpretability
- Title(参考訳): 情報理論解釈性向上のための深層学習の確率論的表現
- Authors: Xinjie Lan, Kenneth E. Barner
- Abstract要約: マルチパラメトリック・パーセプトロン(MLP)の一般化のための明示的確率論的説明を導入する。
本研究では, 確率変数 f が離散であり, 対応するエントロピーが有限であること, (ii) 情報ボトルネック理論がバックプロパゲーションを考慮した場合, 一般化における情報フローを正確に説明できないこと, (iii) 一般化のための新しい情報理論的説明を提案すること, の3つの側面で, データセットの情報-理論的解釈性を改善する。
- 参考スコア(独自算出の注目度): 1.914535189888288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a probabilistic representation of MultiLayer
Perceptrons (MLPs) to improve the information-theoretic interpretability. Above
all, we demonstrate that the activations being i.i.d. is not valid for all the
hidden layers of MLPs, thus the existing mutual information estimators based on
non-parametric inference methods, e.g., empirical distributions and Kernel
Density Estimate (KDE), are invalid for measuring the information flow in MLPs.
Moreover, we introduce explicit probabilistic explanations for MLPs: (i) we
define the probability space (Omega_F, t, P_F) for a fully connected layer f
and demonstrate the great effect of an activation function on the probability
measure P_F ; (ii) we prove the entire architecture of MLPs as a Gibbs
distribution P; and (iii) the back-propagation aims to optimize the sample
space Omega_F of all the fully connected layers of MLPs for learning an optimal
Gibbs distribution P* to express the statistical connection between the input
and the label. Based on the probabilistic explanations for MLPs, we improve the
information-theoretic interpretability of MLPs in three aspects: (i) the random
variable of f is discrete and the corresponding entropy is finite; (ii) the
information bottleneck theory cannot correctly explain the information flow in
MLPs if we take into account the back-propagation; and (iii) we propose novel
information-theoretic explanations for the generalization of MLPs. Finally, we
demonstrate the proposed probabilistic representation and information-theoretic
explanations for MLPs in a synthetic dataset and benchmark datasets.
- Abstract(参考訳): 本稿では,情報理論の解釈性を改善するために,MLP(MultiLayer Perceptrons)の確率的表現を提案する。
以上より,mlpの隠れた層ではi.i.d.のアクティベーションが有効ではないことを実証し,非パラメトリック推論法に基づく既存の相互情報推定器は,mlpにおける情報フローの測定には無効であることを示した。
さらに,MLPに対する明示的な確率論的説明を紹介する。
i) 完全連結層 f に対する確率空間(Omega_F, t, P_F)を定義し、確率測度 P_F に対する活性化関数の大きな効果を示す。
(ii)ギブス分布PとしてMLP全体のアーキテクチャを証明する。
(iii)バックプロパゲーションは、mlpの全連結層のサンプル空間omega_fを最適化し、最適なギブス分布p*を学習し、入力とラベル間の統計的接続を表現することを目的とする。
MLPの確率論的説明に基づき、3つの側面において情報理論的解釈性を改善する。
(i) f の確率変数は離散的であり、対応するエントロピーは有限である。
(ii)情報ボトルネック理論は、バックプロパゲーションを考慮した場合、mlpにおける情報フローを正確に説明できない。
3) MLPの一般化のための新しい情報理論的説明を提案する。
最後に,MLPの確率的表現と情報理論的説明を合成データセットとベンチマークデータセットで示す。
関連論文リスト
- Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - FSMLP: Modelling Channel Dependencies With Simplex Theory Based Multi-Layer Perceptions In Frequency Domain [16.693117400535833]
時系列予測(TSF)は、Webデータ分析、エネルギー消費予測、天気予報など、さまざまな領域において重要な役割を果たす。
MLP(Multi-Layer Perceptrons)は、一時的依存関係をキャプチャするのに軽量で効果的であるが、チャネル間の依存関係をモデル化する場合、過度に適合する傾向がある。
本手法では, モデルが単純なパターンを学習し, 過度な値に収まらないようにする。
論文 参考訳(メタデータ) (2024-12-02T16:04:15Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Probabilistically Plausible Counterfactual Explanations with Normalizing Flows [2.675793767640172]
本稿では,確率論的に妥当な反事実的説明を生成する新しい手法であるPPCEFを提案する。
本手法は, パラメータ分布の特定の族を仮定することなく, 明示密度関数を直接最適化することにより, 精度を向上する。
PPCEFは、機械学習モデルを解釈し、公正性、説明責任、AIシステムの信頼を改善するための強力なツールである。
論文 参考訳(メタデータ) (2024-05-27T20:24:03Z) - Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models [68.83330172211315]
本研究では,トランスフォーマーベース言語モデル(LLM)を用いて,現実的なリコール処理を行うメカニズムについて検討する。
出力の出力を人間の理解するコンポーネントに分解することを目的とした,新しい分析手法を提案する。
我々は、事実的リコールの信頼性を高めるために、私たちの解釈を活用することで、この抑制を緩和する。
論文 参考訳(メタデータ) (2024-03-28T15:54:59Z) - Hybrid Probabilistic Logic Programming: Inference and Learning [1.14219428942199]
この論文は確率論的論理プログラミング(PLP)の進歩に焦点を当てており、不確実性の確率理論と関係性のための論理プログラミングを組み合わせたものである。
最初のコントリビューションは、コンテクスト固有の非依存性を計算ゲインに活用する新しいサンプリングアルゴリズムであるCS-LWの導入である。
次に、新しいハイブリッドPLPであるDC#が導入され、分散クロースとベイズ論理プログラムの構文を統合し、3種類の独立性を表す。
スケーラブルな推論アルゴリズムFO-CS-LWがDC#で導入された。
論文 参考訳(メタデータ) (2023-02-01T15:07:36Z) - Categorical Distributions of Maximum Entropy under Marginal Constraints [0.0]
限界制約下でのカテゴリー分布の推定は、多くの機械学習およびデータ駆動アプローチにおいて鍵となる。
限界制約下での最大エントロピーのカテゴリー分布が常に存在することを保証するパラメータに依存しない理論的枠組みを提供する。
論文 参考訳(メタデータ) (2022-04-07T12:42:58Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - PAC-Bayesian Generalization Bounds for MultiLayer Perceptrons [6.151486024920938]
PAC-Bayesian bounds for Multilayer PerceptronMLPs with the cross entropy loss。
我々は, PAC-Bayesian 境界のクロスエントロピー損失を保証する一般化と, PAC-Bayesian 境界の最小化がエビデンス・ローワー・バウンド(ELBO)の最大化と等価であることを証明した。
ベンチマークデータセットに基づいて提案したPAC-Bayesian一般化を検証する。
論文 参考訳(メタデータ) (2020-06-16T02:55:26Z) - Approximate MMAP by Marginal Search [78.50747042819503]
本稿では,グラフィカルモデルにおける最小値MAPクエリの戦略を提案する。
提案した信頼度尺度は,アルゴリズムが正確であるインスタンスを適切に検出するものである。
十分に高い信頼度を得るために、アルゴリズムは正確な解を与えるか、正確な解からハミング距離が小さい近似を与える。
論文 参考訳(メタデータ) (2020-02-12T07:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。