論文の概要: Information-Theoretic Greedy Layer-wise Training for Traffic Sign Recognition
- arxiv url: http://arxiv.org/abs/2510.27651v1
- Date: Fri, 31 Oct 2025 17:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.182926
- Title: Information-Theoretic Greedy Layer-wise Training for Traffic Sign Recognition
- Title(参考訳): 交通信号認識のための情報理論グレディ・レイヤ・ワイズトレーニング
- Authors: Shuyan Lyu, Zhanzimo Wu, Junliang Du,
- Abstract要約: レイヤワイズトレーニングは、クロスエントロピー損失とバックプロパゲーションの必要性を排除する。
既存の階層的なトレーニングアプローチの多くは、比較的小さなデータセットでのみ評価されている。
本稿では,最近開発された決定論的情報ボトルネック(DIB)と行列に基づくR'enyiの$alpha$-orderエントロピー関数に基づく,階層的学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.5024983453990065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep neural networks (DNNs) are typically trained with a global cross-entropy loss in a supervised end-to-end manner: neurons need to store their outgoing weights; training alternates between a forward pass (computation) and a top-down backward pass (learning) which is biologically implausible. Alternatively, greedy layer-wise training eliminates the need for cross-entropy loss and backpropagation. By avoiding the computation of intermediate gradients and the storage of intermediate outputs, it reduces memory usage and helps mitigate issues such as vanishing or exploding gradients. However, most existing layer-wise training approaches have been evaluated only on relatively small datasets with simple deep architectures. In this paper, we first systematically analyze the training dynamics of popular convolutional neural networks (CNNs) trained by stochastic gradient descent (SGD) through an information-theoretic lens. Our findings reveal that networks converge layer-by-layer from bottom to top and that the flow of information adheres to a Markov information bottleneck principle. Building on these observations, we propose a novel layer-wise training approach based on the recently developed deterministic information bottleneck (DIB) and the matrix-based R\'enyi's $\alpha$-order entropy functional. Specifically, each layer is trained jointly with an auxiliary classifier that connects directly to the output layer, enabling the learning of minimal sufficient task-relevant representations. We empirically validate the effectiveness of our training procedure on CIFAR-10 and CIFAR-100 using modern deep CNNs and further demonstrate its applicability to a practical task involving traffic sign recognition. Our approach not only outperforms existing layer-wise training baselines but also achieves performance comparable to SGD.
- Abstract(参考訳): 現代のディープニューラルネットワーク(DNN)は通常、監督されたエンドツーエンドの方法でグローバルなクロスエントロピー損失でトレーニングされる:ニューロンはアウトゴートウェイトを保存する必要があり、フォワードパス(計算)とトップダウンバックワードパス(学習)の間の交互にトレーニングする。
あるいは、欲求層ワイドトレーニングは、クロスエントロピー損失とバックプロパゲーションの必要性を排除します。
中間勾配の計算や中間出力の保存を避けることで、メモリ使用量を減らし、勾配の消滅や爆発といった問題を緩和する。
しかし、既存のレイヤレベルのトレーニングアプローチのほとんどは、単純なディープアーキテクチャを持つ比較的小さなデータセットでのみ評価されている。
本稿では,まず,確率勾配降下(SGD)によって訓練された一般的な畳み込みニューラルネットワーク(CNN)のトレーニングダイナミクスを,情報理論レンズを用いて系統的に解析する。
その結果,ネットワークは下から上へと階層的に収束し,情報の流れはマルコフ情報ボトルネックの原理に則っていることがわかった。
これらの観測に基づいて、最近開発された決定論的情報ボトルネック(DIB)と行列に基づくR\enyiの$\alpha$-orderエントロピー関数に基づく新しい階層的トレーニング手法を提案する。
具体的には、各層は、出力層に直接接続する補助分類器と共同で訓練され、最小限のタスク関連表現の学習を可能にする。
最新の深層CNNを用いたCIFAR-10とCIFAR-100におけるトレーニング手順の有効性を実証的に検証し,さらに交通標識認識を含む実用的なタスクへの適用性を示した。
我々のアプローチは、既存のレイヤワイドトレーニングベースラインを上回るだけでなく、SGDに匹敵するパフォーマンスも達成します。
関連論文リスト
- Auto-Compressing Networks [51.221103189527014]
本稿では,各層からの長いフィードフォワード接続が従来の短残コネクションに取って代わるアーキテクチャ変種であるAuto-compression Networks (ACNs)を紹介する。
本稿では,ACNが残差ネットワークと比較して高雑音を示すこと,低データ設定における優れた性能を示すこと,破滅的忘れを軽減できることを述べる。
これらの知見は、効率的な神経アーキテクチャを開発するための実践的なアプローチとしてACNを確立している。
論文 参考訳(メタデータ) (2025-06-11T13:26:09Z) - Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-08-01T20:31:58Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Understanding Training-Data Leakage from Gradients in Neural Networks
for Image Classification [11.272188531829016]
多くのアプリケーションでは、IPやプライバシの懸念からトレーニングデータが漏洩することを防ぐために、トレーニングデータを保護する必要があります。
近年の研究では、アーキテクチャが分かっていれば、画像分類モデルの勾配からトレーニングデータを再構築できることが示されている。
我々は各層に対して反復的に最適化問題を解くものとして、データ再構成のトレーニング問題を定式化する。
私たちは、ディープネットワーク内のトレーニングデータの潜在的漏洩を、そのアーキテクチャに関連付けることができます。
論文 参考訳(メタデータ) (2021-11-19T12:14:43Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。