論文の概要: Universal Approximation Theory: The Basic Theory for Deep Learning-Based Computer Vision Models
- arxiv url: http://arxiv.org/abs/2407.17480v3
- Date: Mon, 19 Aug 2024 04:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 01:59:09.523941
- Title: Universal Approximation Theory: The Basic Theory for Deep Learning-Based Computer Vision Models
- Title(参考訳): ユニバーサル近似理論:ディープラーニングに基づくコンピュータビジョンモデルの基礎理論
- Authors: Wei Wang, Qing Li,
- Abstract要約: コンピュータビジョン(CV)は人工知能において最も重要な分野の一つである。
近年,畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づくさまざまなディープラーニングモデルが,CVの多様な問題に対処するために設計されている。
これらのアルゴリズムはロボット工学や顔認識などの分野で実用化されている。
- 参考スコア(独自算出の注目度): 9.487731634351787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision (CV) is one of the most crucial fields in artificial intelligence. In recent years, a variety of deep learning models based on convolutional neural networks (CNNs) and Transformers have been designed to tackle diverse problems in CV. These algorithms have found practical applications in areas such as robotics and facial recognition. Despite the increasing power of current CV models, several fundamental questions remain unresolved: Why do CNNs require deep layers? What ensures the generalization ability of CNNs? Why do residual-based networks outperform fully convolutional networks like VGG? What is the fundamental difference between residual-based CNNs and Transformer-based networks? Why can CNNs utilize LoRA and pruning techniques? The root cause of these questions lies in the lack of a robust theoretical foundation for deep learning models in CV. To address these critical issues and techniques, we employ the Universal Approximation Theorem (UAT) to provide a theoretical basis for convolution- and Transformer-based models in CV. By doing so, we aim to elucidate these questions from a theoretical perspective.
- Abstract(参考訳): コンピュータビジョン(CV)は人工知能において最も重要な分野の一つである。
近年,畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づく様々なディープラーニングモデルが,CVの多様な問題に対処するために設計されている。
これらのアルゴリズムはロボット工学や顔認識などの分野で実用化されている。
現在のCVモデルのパワーの増大にもかかわらず、いくつかの根本的な疑問は未解決のままである。
CNNの一般化能力はどうなるのか?
なぜ残差ベースのネットワークはVGGのような完全な畳み込みネットワークを上回るのか?
残差ベースのCNNとTransformerベースのネットワークの根本的な違いは何ですか?
なぜCNNはLoRAとプルーニング技術を利用するのか?
これらの疑問の根本原因は、CVにおけるディープラーニングモデルのための堅牢な理論的基盤が欠如していることにある。
これらの重要な問題と技術に対処するため、CVにおける畳み込みモデルとトランスフォーマーモデルの理論基盤を提供するためにユニバーサル近似定理(UAT)を用いる。
そこで我々は,これらの疑問を理論的観点から解明することを目指す。
関連論文リスト
- Biased Attention: Do Vision Transformers Amplify Gender Bias More than
Convolutional Neural Networks? [2.8391805742728553]
コンピュータビジョンで使用されるディープニューラルネットワークは、性別バイアスのような多くの社会的バイアスを示すことが示されている。
ビジョントランスフォーマー(ViT)は、コンピュータビジョンアプリケーションにおいて、画像分類などの多くのタスクにおいて、畳み込みニューラルネットワーク(CNN)を上回っている。
この研究により、ViTsはCNNよりも男女の偏見を増幅していることがわかった。
論文 参考訳(メタデータ) (2023-09-15T20:59:12Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - Why do CNNs excel at feature extraction? A mathematical explanation [53.807657273043446]
実世界のデータセットに似た画像を生成するのに使用できる特徴抽出に基づく画像分類の新しいモデルを提案する。
本研究では,特徴の存在を検知する一方向線形関数を構築し,畳み込みネットワークで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-07-03T10:41:34Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - The smooth output assumption, and why deep networks are better than wide
ones [0.0]
モデルがどのように一般化するかを予測する新しい尺度を提案する。
現実には、概念間の境界が一般に形骸化していないという事実に基づいている。
論文 参考訳(メタデータ) (2022-11-25T19:05:44Z) - Meet You Halfway: Explaining Deep Learning Mysteries [0.0]
本稿では,ネットワークの振舞いに光を当てることを目的とした,形式的な記述を伴う新しい概念的枠組みを提案する。
なぜニューラルネットワークは一般化能力を獲得するのか?
我々は、この新しいフレームワークと基礎となる理論をサポートする包括的な実験セットを提供する。
論文 参考訳(メタデータ) (2022-06-09T12:43:10Z) - CNNs Avoid Curse of Dimensionality by Learning on Patches [11.546219454021935]
我々は、畳み込みニューラルネットワーク(CNN)が画像パッチの領域で動作すると主張している。
我々の研究は、CNNの一般化誤差に対する事前誤差を導出した最初のものである。
我々のパッチベースの理論はまた、CNNの一般化誤差を改善するために、Cutout、CutMix、ランダムトリミングといったデータ拡張技術が有効である理由を説明する。
論文 参考訳(メタデータ) (2022-05-22T06:22:27Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。