論文の概要: A Theory of Machine Understanding via the Minimum Description Length Principle
- arxiv url: http://arxiv.org/abs/2504.00395v3
- Date: Mon, 09 Jun 2025 18:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.774722
- Title: A Theory of Machine Understanding via the Minimum Description Length Principle
- Title(参考訳): 最小記述長原理による機械理解の一理論
- Authors: Canlin Zhang, Xiuwen Liu,
- Abstract要約: エンド・ツー・エンドの学習モデルでは、学習内容が"理解"できないことを示す。
言い換えれば、説明可能な表現は、単に深いネットワークを最小記述長の原理に従うようにすることで、自己監督的な方法で現れる。
この研究は完全に理論的であり、自己管理型説明可能なAIに向けた将来の研究を刺激することを目的としている。
- 参考スコア(独自算出の注目度): 1.3735277588793995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks trained through end-to-end learning have achieved remarkable success across various domains in the past decade. However, the end-to-end learning strategy, originally designed to minimize predictive loss in a black-box manner, faces two fundamental limitations: the struggle to form explainable representations in a self-supervised manner, and the inability to compress information rigorously following the Minimum Description Length (MDL) principle. These two limitations point to a deeper issue: an end-to-end learning model is not able to "understand" what it learns. In this paper, we establish a novel theory connecting these two limitations. We design the Spectrum VAE, a novel deep learning architecture whose minimum description length (MDL) can be rigorously evaluated. Then, we introduce the concept of latent dimension combinations, or what we term spiking patterns, and demonstrate that the observed spiking patterns should be as few as possible based on the training data in order for the Spectrum VAE to achieve the MDL. Finally, our theory demonstrates that when the MDL is achieved with respect to the given data distribution, the Spectrum VAE will naturally produce explainable latent representations of the data. In other words, explainable representations--or "understanding"--can emerge in a self-supervised manner simply by making the deep network obey the MDL principle. In our opinion, this also implies a deeper insight: To understand is to compress. At its core, our theory advocates for a shift in the training objective of deep networks: not only to minimize predictive loss, but also to minimize the description length regarding the given data. That is, a deep network should not only learn, but also understand what it learns. This work is entirely theoretical and aims to inspire future research toward self-supervised, explainable AI grounded in the MDL principle.
- Abstract(参考訳): エンドツーエンドの学習を通じてトレーニングされたディープニューラルネットワークは、過去10年間にさまざまなドメインで顕著な成功を収めてきた。
しかし、当初ブラックボックス方式で予測損失を最小限に抑えるために設計されたエンドツーエンド学習戦略は、自己教師型で説明可能な表現を形成するのに苦労することと、最小記述長(MDL)の原則に従って情報を厳格に圧縮できないことの2つの基本的な制限に直面している。
これらの2つの制限は、より深い問題を示している: エンドツーエンドの学習モデルは、学習したことを"理解"できない。
本稿では,これらの2つの制約を結合する新しい理論を確立する。
本稿では,最小記述長(MDL)を厳格に評価できる新しいディープラーニングアーキテクチャであるSpectrum VAEを設計する。
次に、潜時次元の組み合わせの概念、あるいはスパイクパターンと呼ぶものを導入し、スペクトルVAEがMDLを達成するためのトレーニングデータに基づいて観測されたスパイクパターンが極力少ないことを実証する。
最後に,本理論は,MDLが与えられたデータ分布に対して達成された場合,スペクトルVAEがデータの説明可能な潜在表現を自然に生成することを示した。
言い換えれば、説明可能な表現-または「理解」-は、単に深層ネットワークがMDLの原則に従うようにすることで、自己監督的な方法で現れる。
私たちの意見では、これはさらに深い洞察を暗示しています。
我々の理論は、予測損失を最小限に抑えるだけでなく、与えられたデータに関する記述長を最小化する、深層ネットワークのトレーニング目標のシフトを提唱している。
つまり、ディープネットワークは学習するだけでなく、何を学ぶかを理解する必要がある。
この研究は完全に理論的であり、MDLの原理に基づく自己監督型説明可能なAIに向けた将来の研究を刺激することを目的としている。
関連論文リスト
- Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。
広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Learning Mask Invariant Mutual Information for Masked Image Modeling [35.63719638508299]
Maskedencodes (MAEs) はコンピュータビジョンにおける卓越した自己教師型学習パラダイムである。
近年の研究では、コントラスト学習と特徴表現分析を通じて、MAEの機能の解明が試みられている。
本稿では,情報理論における情報ボトルネックの原理を活用することで,MAEを理解するための新たな視点を提案する。
論文 参考訳(メタデータ) (2025-02-27T03:19:05Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Probability Distribution Learning and Its Application in Deep Learning [0.0]
本稿では,確率分布学習(PD Learning)と呼ばれる理論学習フレームワークを紹介する。
PD学習は確率分布の学習に重点を置いており、確率の単純さの中で確率変数としてモデル化される。
論文 参考訳(メタデータ) (2024-06-09T06:49:22Z) - Understanding Encoder-Decoder Structures in Machine Learning Using Information Measures [10.066310107046084]
機械学習(ML)におけるエンコーダデコーダ設計の役割をモデル化し理解するための新しい結果を提案する。
我々は、機械学習における予測構造を表現するために、情報満足度(IS)と相互情報損失(MIL)という2つの主要な情報概念を用いる。
論文 参考訳(メタデータ) (2024-05-30T19:58:01Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
実演として、$I(Z; M)$の教師付きおよび自己教師型実装を提案し、対応する最適化アルゴリズムがRLベンチマークの幅広いスペクトルにわたって顕著な一般化を示すことを実証的に示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Latent Variable Models in the Era of Industrial Big Data: Extension and
Beyond [7.361977372607915]
潜在変数モデル(LVM)とその対応するものが大きなシェアを占め、多くの産業モデリング分野で重要な役割を担います。
軽量深層LVM(LDLVM)という新しい概念を提案する。
論文 参考訳(メタデータ) (2022-08-23T09:58:37Z) - Envisioning Future Deep Learning Theories: Some Basic Concepts and Characteristics [30.365274034429508]
将来的な深層学習理論は,3つの特徴を継承すべきである,と我々は主張する。 階層構造型ネットワークアーキテクチャ, 勾配法を用いてテキストに最適化されたパラメータ, テキスト圧縮的に進化するデータからの情報。
我々はこれらの特徴をTextitneurashedと呼ばれるグラフィカルモデルに統合し、ディープラーニングにおける一般的な経験的パターンを効果的に説明する。
論文 参考訳(メタデータ) (2021-12-17T19:51:26Z) - Error Bounds for a Matrix-Vector Product Approximation with Deep ReLU
Neural Networks [0.0]
深層学習の理論は、深層学習指向の深さと発達の広さの理論を刺激した。
深部修正線形単位(ReLU)フィードフォワードニューラルネットワーク(FNN)を用いて任意の行列ベクトル積を正確に近似できるのか?
我々は、発達した深部近似理論を構成するルベーグノルムとソボレフノルムの誤差境界を導出する。
先進的な理論は、新たな教師学生AIやMLパラダイムの観点から、教師の深いReLU FNNの指導と緩和にも適用できる。
論文 参考訳(メタデータ) (2021-11-25T08:14:55Z) - An Empirical Investigation into Deep and Shallow Rule Learning [0.0]
本稿では,深層ルール学習と浅層ルール学習を一様一般アルゴリズムで実証的に比較する。
人工および実世界のベンチマークデータを用いた実験は、深いルールネットワークが浅いネットワークより優れていることを示している。
論文 参考訳(メタデータ) (2021-06-18T17:43:17Z) - Understanding Interpretability by generalized distillation in Supervised
Classification [3.5473853445215897]
最近の解釈戦略は、複雑な機械学習モデルの根底にある決定メカニズムの人間の理解に焦点を当てている。
本稿では,他のMLモデルと相対的に定義される解釈・蒸留式を提案する。
MNIST、Fashion-MNIST、Stanford40データセットに関する提案フレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-12-05T17:42:50Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z) - The Minimum Description Length Principle for Pattern Mining: A Survey [0.07614628596146598]
パターンマイニングに適用される最小記述長の原理について述べる。
情報理論とコーディングから関連する概念を概説した後、様々な種類のデータやパターンをマイニングするためのMDLベースの手法を概説する。
論文 参考訳(メタデータ) (2020-07-28T06:24:39Z) - A Chain Graph Interpretation of Real-World Neural Networks [58.78692706974121]
本稿では,NNを連鎖グラフ(CG)、フィードフォワードを近似推論手法として識別する別の解釈を提案する。
CG解釈は、確率的グラフィカルモデルのリッチな理論的枠組みの中で、各NNコンポーネントの性質を規定する。
我々は,CG解釈が様々なNN技術に対する新しい理論的支援と洞察を提供することを示す具体例を実例で示す。
論文 参考訳(メタデータ) (2020-06-30T14:46:08Z) - On the Information Plane of Autoencoders [0.0]
Information Plane (IP) はディープラーニングネットワークに隠された層を解析するために提案された。
本研究では,自動エンコーダのIPに関する理論的収束を導出する。
自動エンコーダの理論的IPは、ニューラルネットワークのMIを推定する新しい手法を検証するベンチマークとして使用できる。
論文 参考訳(メタデータ) (2020-05-15T21:05:49Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。