論文の概要: Challenges of Heterogeneity in Big Data: A Comparative Study of Classification in Large-Scale Structured and Unstructured Domains
- arxiv url: http://arxiv.org/abs/2512.00298v1
- Date: Sat, 29 Nov 2025 03:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.155951
- Title: Challenges of Heterogeneity in Big Data: A Comparative Study of Classification in Large-Scale Structured and Unstructured Domains
- Title(参考訳): ビッグデータにおける不均一性の課題:大規模構造領域と非構造領域の分類の比較研究
- Authors: González Trigueros Jesús Eduardo, Alonso Sánchez Alejandro, Muñoz Rivera Emilio, Peñarán Prieto Mariana Jaqueline, Mendoza González Camila Natalia,
- Abstract要約: 本研究では、構造化(Epsilon)と非構造化(Rest-Mex, IMDB)ドメイン間の分類戦略を比較することにより、ビッグデータにおける不均一性(可変性)の影響を分析する。
高次元空間では、線形モデル(SVM、ロジスティック回帰)は深い勾配ブースティングよりも優れています。
この作業は、自然とインフラの制約に基づいた最適化されたデータ選択のための統一されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study analyzes the impact of heterogeneity ("Variety") in Big Data by comparing classification strategies across structured (Epsilon) and unstructured (Rest-Mex, IMDB) domains. A dual methodology was implemented: evolutionary and Bayesian hyperparameter optimization (Genetic Algorithms, Optuna) in Python for numerical data, and distributed processing in Apache Spark for massive textual corpora. The results reveal a "complexity paradox": in high-dimensional spaces, optimized linear models (SVM, Logistic Regression) outperformed deep architectures and Gradient Boosting. Conversely, in text-based domains, the constraints of distributed fine-tuning led to overfitting in complex models, whereas robust feature engineering -- specifically Transformer-based embeddings (ROBERTa) and Bayesian Target Encoding -- enabled simpler models to generalize effectively. This work provides a unified framework for algorithm selection based on data nature and infrastructure constraints.
- Abstract(参考訳): 本研究では、構造化(Epsilon)と非構造化(Rest-Mex, IMDB)ドメイン間の分類戦略を比較することにより、ビッグデータにおける不均一性(可変性)の影響を分析する。
数値データのためのPythonの進化的およびベイズ的ハイパーパラメータ最適化(Genetic Algorithms, Optuna)と大量のテキストコーパスのためのApache Sparkの分散処理という2つの手法が実装された。
高次元空間では、最適化された線形モデル(SVM、ロジスティック回帰)がディープアーキテクチャやグラディエントブースティングより優れています。
逆にテキストベースのドメインでは、分散微調整の制約が複雑なモデルに過度な適合をもたらす一方で、堅牢な機能工学、特に Transformer-based embeddings (ROBERTa) と Bayesian Target Encoding は、より単純なモデルを効果的に一般化することを可能にした。
この作業は、データの性質とインフラストラクチャの制約に基づいたアルゴリズム選択のための統一されたフレームワークを提供する。
関連論文リスト
- On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Kernel Biclustering algorithm in Hilbert Spaces [8.303238963864885]
我々は,エネルギー距離と平均誤差の最大値という概念を用いて,抽象空間における新しいモデルフリー・ビクラスタリングアルゴリズムを開発した。
提案手法は,既存の文献よりも一般的で複雑なクラスタ形状を学習することができる。
提案手法は,カーネルの適切な選択を前提として,その最適シナリオにおける最先端手法と類似している。
論文 参考訳(メタデータ) (2022-08-07T08:41:46Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Hierarchical regularization networks for sparsification based learning
on noisy datasets [0.0]
階層は、連続的により微細なスケールで特定される近似空間から従う。
各スケールでのモデル一般化を促進するため,複数次元にわたる新規な射影型ペナルティ演算子も導入する。
その結果、合成データセットと実データセットの両方において、データ削減およびモデリング戦略としてのアプローチの性能が示された。
論文 参考訳(メタデータ) (2020-06-09T18:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。