論文の概要: An Empirical Study of Data Scale, Model Complexity, and Input Modalities in Visual Generalization
- arxiv url: http://arxiv.org/abs/2606.04409v1
- Date: Wed, 03 Jun 2026 03:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.517177
- Title: An Empirical Study of Data Scale, Model Complexity, and Input Modalities in Visual Generalization
- Title(参考訳): 視覚一般化におけるデータスケール, モデル複雑度, 入力モダリティの実証的研究
- Authors: Luoyidi Zhou,
- Abstract要約: 本研究では,データスケール,モデル複雑性,入力モダリティ,視覚的一般化性能の関連性について,実証分析を行った。
その結果,トレーニングデータの規模が大きくなると一般化性能が向上することがわかった。
色情報の除去はモデル性能を低下させるが、勾配、エッジ、ウェーブレットといった明示的な事前特徴は異なるモデルアーキテクチャ間で矛盾する効果を持つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep neural networks usually have large parameter scales and nonlinear hierarchical structures, and they have achieved strong performance in computer vision. However, the source of their generalization performance remains difficult to explain using traditional statistical learning theory. Among the factors that may affect visual generalization, data scale, model complexity, and input modalities are fundamental and controllable variables. This study empirically analyzes how these three factors influence model generalization performance. Specifically, in a preliminary experiment, we construct a one-dimensional nonlinear function and vary the number of training samples and the polynomial degree to observe the effects of data scale and model complexity on model performance. In the main experiments, we compare model performance on CIFAR-10 and CIFAR-100 under different training data scales, model architectures, and input modalities. The experimental results show that increasing the training data scale consistently improves generalization performance, whereas changes in model complexity do not provide stable gains. In addition, removing color information degrades model performance, while explicit prior features such as gradients, edges, and wavelets have inconsistent effects across different model architectures. Overall, this study provides an empirical analysis of the relationships among data scale, model complexity, input modalities, and visual generalization performance. Code and experimental logs are available at: https://github.com/zlyd-CV/DeepLearning-Empirical-Studies.
- Abstract(参考訳): 現代のディープニューラルネットワークは、通常大きなパラメータスケールと非線形階層構造を持ち、コンピュータビジョンにおいて高い性能を達成している。
しかし、それらの一般化性能の源泉は、従来の統計的学習理論を用いて説明が難しいままである。
視覚的一般化、データスケール、モデル複雑性、入力モダリティに影響を及ぼす可能性のある要素は、基本的で制御可能な変数である。
本研究では,これら3つの要因がモデル一般化性能に与える影響を実験的に分析した。
具体的には、予備実験において、1次元非線形関数を構築し、トレーニングサンプルの数と多項式次数を変えて、データスケールとモデル複雑さがモデル性能に与える影響を観察する。
本実験では、CIFAR-10とCIFAR-100のモデル性能を、異なるトレーニングデータスケール、モデルアーキテクチャ、入力モダリティで比較する。
実験結果から,トレーニングデータスケールの増大は一般化性能を継続的に向上させるが,モデル複雑性の変化は安定したゲインを与えないことがわかった。
さらに、色情報を削除することでモデル性能が低下する一方、勾配、エッジ、ウェーブレットといった明示的な事前特徴は異なるモデルアーキテクチャ間で矛盾する効果を持つ。
本研究は,データスケール,モデル複雑性,入力モダリティ,視覚一般化性能の関係を実証的に分析した。
コードと実験ログは、https://github.com/zlyd-CV/DeepLearning-Empirical-Studies.comで入手できる。
関連論文リスト
- Data Value in the Age of Scaling: Understanding LLM Scaling Dynamics Under Real-Synthetic Data Mixtures [32.89034139737846]
大規模言語モデル(LLM)は、実データと合成データをブレンドするデータセット上に構築されている。
合成データはスケーラビリティとコスト効率を提供するが、しばしば系統的な分散の相違をもたらす。
本稿では,大規模データセットにスケールする効果的なデータ評価手法を提案する。
論文 参考訳(メタデータ) (2025-11-17T17:53:12Z) - Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - The Impact of Feature Scaling In Machine Learning: Effects on Regression and Classification Tasks [0.6263680699548958]
本研究は、14の機械学習アルゴリズムと16のデータセットにまたがる12のスケーリングテクニックを体系的に評価することで、機能スケーリングに関する包括的な研究が欠如していることに対処する。
我々は、予測性能(精度、MAE、MSE、R2$など)と計算コスト(トレーニング時間、推論時間、メモリ使用量)への影響を慎重に分析した。
論文 参考訳(メタデータ) (2025-06-09T22:32:51Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Generalization Gap in Data Augmentation: Insights from Illumination [3.470401787749558]
実世界の照明条件下で訓練されたモデルと、拡張現実で訓練されたモデルとの一般化の相違について検討する。
その結果,様々なデータ拡張手法を適用した結果,モデルの性能は大幅に向上した。
しかし、様々なデータ拡張手法を利用した後も、顕著な一般化のギャップが残っている。
論文 参考訳(メタデータ) (2024-04-11T07:11:43Z) - Machine Learning vs Deep Learning: The Generalization Problem [0.0]
本研究では,従来の機械学習(ML)モデルとディープラーニング(DL)アルゴリズムの比較能力について,外挿の観点から検討した。
本稿では,MLモデルとDLモデルの両方が指数関数で学習され,学習領域外の値でテストされる経験的分析を提案する。
その結果,ディープラーニングモデルには,学習範囲を超えて一般化する固有の能力があることが示唆された。
論文 参考訳(メタデータ) (2024-03-03T21:42:55Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Using Explainable Boosting Machine to Compare Idiographic and Nomothetic
Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。
木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。
2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文 参考訳(メタデータ) (2022-04-04T17:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。