論文の概要: Teaching the Teacher: Improving Neural Network Distillability for Symbolic Regression via Jacobian Regularization
- arxiv url: http://arxiv.org/abs/2507.22767v1
- Date: Wed, 30 Jul 2025 15:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.28744
- Title: Teaching the Teacher: Improving Neural Network Distillability for Symbolic Regression via Jacobian Regularization
- Title(参考訳): 教師に教える:ヤコビ正規化によるシンボリック回帰のためのニューラルネットワーク蒸留性の改善
- Authors: Soumyadeep Dhar, Kei Sen Fong, Mehul Motani,
- Abstract要約: 複雑なニューラルネットワークを単純で可読な記号式に拡張することは、信頼できる、解釈可能なAIへの有望な道のりだ。
この課題に対処するための新しい訓練パラダイムを提案する。
事前学習されたネットワークを受動的に蒸留する代わりに, 教師のネットワークに, 正確であるだけでなく, 自然にスムーズで, 蒸留に適する機能を学ぶよう積極的に促すtextbfJacobian-based regularizerを導入する。
- 参考スコア(独自算出の注目度): 17.033055327465238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilling large neural networks into simple, human-readable symbolic formulas is a promising path toward trustworthy and interpretable AI. However, this process is often brittle, as the complex functions learned by standard networks are poor targets for symbolic discovery, resulting in low-fidelity student models. In this work, we propose a novel training paradigm to address this challenge. Instead of passively distilling a pre-trained network, we introduce a \textbf{Jacobian-based regularizer} that actively encourages the ``teacher'' network to learn functions that are not only accurate but also inherently smoother and more amenable to distillation. We demonstrate through extensive experiments on a suite of real-world regression benchmarks that our method is highly effective. By optimizing the regularization strength for each problem, we improve the $R^2$ score of the final distilled symbolic model by an average of \textbf{120\% (relative)} compared to the standard distillation pipeline, all while maintaining the teacher's predictive accuracy. Our work presents a practical and principled method for significantly improving the fidelity of interpretable models extracted from complex neural networks.
- Abstract(参考訳): 巨大なニューラルネットワークをシンプルで可読な記号式に拡張することは、信頼できる、解釈可能なAIへの有望な道のりだ。
しかし、標準的なネットワークによって学習される複雑な関数は記号的発見の標的に乏しいため、この過程は不安定であることが多い。
本研究では,この課題に対処するための新しいトレーニングパラダイムを提案する。
事前学習されたネットワークを受動的に蒸留する代わりに、'teacher'ネットワークを積極的に奨励する‘textbf{Jacobian-based regularizer} を導入する。
提案手法は実世界の回帰ベンチマークにおいて,非常に有効であることを示す。
各問題に対する正則化強度を最適化することにより、教師の予測精度を維持しつつ、標準蒸留パイプラインと比較して、最終蒸留シンボルモデルのR^2$スコアを平均で「textbf{120\%(相対)」で改善する。
本研究では,複雑なニューラルネットワークから抽出した解釈可能なモデルの忠実度を大幅に向上させる,実用的で原理的な手法を提案する。
関連論文リスト
- Learning to Continually Learn with the Bayesian Principle [36.75558255534538]
本研究では、ニューラルネットワークの強力な表現力と、忘れることに対する単純な統計モデルの堅牢性を組み合わせたメタラーニングパラダイムを採用する。
ニューラルネットワークは継続学習中に固定されているため、破滅的な忘れ物から保護されている。
論文 参考訳(メタデータ) (2024-05-29T04:53:31Z) - Neural Network-Based Score Estimation in Diffusion Models: Optimization
and Generalization [12.812942188697326]
拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-28T08:13:56Z) - Neural Network Pruning by Gradient Descent [7.427858344638741]
我々は,Gumbel-Softmaxテクニックを取り入れた,新しい,かつ簡単なニューラルネットワークプルーニングフレームワークを提案する。
ネットワークパラメータの0.15%しか持たないMNISTデータセット上で、高い精度を維持しながら、例外的な圧縮能力を実証する。
我々は,ディープラーニングプルーニングと解釈可能な機械学習システム構築のための,有望な新たな道を開くと信じている。
論文 参考訳(メタデータ) (2023-11-21T11:12:03Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Fast Adaptation with Linearized Neural Networks [35.43406281230279]
ニューラルネットワークの線形化の帰納的バイアスについて検討し,全ネットワーク関数の驚くほどよい要約であることを示した。
この発見に触発されて,これらの帰納的バイアスをネットワークのヤコビアンから設計されたカーネルを通してガウス過程に埋め込む手法を提案する。
この設定では、領域適応は不確実性推定を伴う解釈可能な後方推論の形式を取る。
論文 参考訳(メタデータ) (2021-03-02T03:23:03Z) - Deep Ordinal Regression with Label Diversity [19.89482062012177]
本稿では,複数の離散データ表現を同時に使用することで,ニューラルネットワーク学習を改善することを提案する。
我々のアプローチはエンドツーエンドで微分可能であり、従来の学習方法への単純な拡張として追加することができる。
論文 参考訳(メタデータ) (2020-06-29T08:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。