論文の概要: High-Dimensional Data Processing: Benchmarking Machine Learning and Deep Learning Architectures in Local and Distributed Environments
- arxiv url: http://arxiv.org/abs/2512.10312v1
- Date: Thu, 11 Dec 2025 06:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.209177
- Title: High-Dimensional Data Processing: Benchmarking Machine Learning and Deep Learning Architectures in Local and Distributed Environments
- Title(参考訳): 高次元データ処理: ローカルおよび分散環境における機械学習とディープラーニングアーキテクチャのベンチマーク
- Authors: Julian Rodriguez, Piotr Lopez, Emiliano Lerma, Rafael Medrano, Jacobo Hernandez,
- Abstract要約: この文書は、ビッグデータコースで実装されたプラクティスと方法論のシーケンスを報告します。
グループおよび個別戦略によるEpsilonデータセットの処理の詳細と、RestMexによるテキスト分析と分類、IMDbによる映画特徴分析について詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document reports the sequence of practices and methodologies implemented during the Big Data course. It details the workflow beginning with the processing of the Epsilon dataset through group and individual strategies, followed by text analysis and classification with RestMex and movie feature analysis with IMDb. Finally, it describes the technical implementation of a distributed computing cluster with Apache Spark on Linux using Scala.
- Abstract(参考訳): この文書は、ビッグデータコースで実装されたプラクティスと方法論のシーケンスを報告します。
グループと個別戦略によるEpsilonデータセットの処理から始まるワークフローの詳細と、RestMexによるテキスト分析と分類、IMDbによる映画特徴分析について詳述する。
最後に、Scalaを使用したApache Spark on Linuxによる分散コンピューティングクラスタの技術的実装について説明する。
関連論文リスト
- TWIST: Training-free and Label-free Short Text Clustering through Iterative Vector Updating with LLMs [18.746184073913813]
本稿では,短時間のテキストクラスタリングのためのトレーニングフリーかつラベルフリーな手法を提案する。
提案手法は,最先端手法に匹敵する,あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2025-10-08T08:05:39Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Natural Language-Based Synthetic Data Generation for Cluster Analysis [4.13592995550836]
クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。
本研究では,高レベルシナリオの直接仕様に基づく合成データ生成を提案する。
私たちのオープンソースのPythonパッケージは、このワークフローを実装しています。
論文 参考訳(メタデータ) (2023-03-24T23:45:27Z) - Block size estimation for data partitioning in HPC applications using
machine learning techniques [38.063905789566746]
本稿では,ブロックサイズ推定のためのBLEST-ML(BLock size ESTimation through Machine Learning)手法について述べる。
提案手法は分散コンピューティングライブラリであるdislibに適した実装を設計することで評価された。
その結果、BLEST-MLが与えられたデータセットを分割する適切な方法を効率的に決定できることを示した。
論文 参考訳(メタデータ) (2022-11-19T23:04:14Z) - Data-to-Value: An Evaluation-First Methodology for Natural Language
Projects [3.9378507882929554]
Data to Value"(D2V)は、ビッグデータテキスト分析プロジェクトのための新しい方法論である。
ビッグデータテキスト分析プロジェクトチームとトピック間の切断を避けるため、質問の詳細なカタログでガイドされている。
論文 参考訳(メタデータ) (2022-01-19T17:04:52Z) - Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-07-29T11:57:38Z) - Data Segmentation via t-SNE, DBSCAN, and Random Forest [0.0]
本研究では、データを自然クラスタに分割し、最も重要な特徴に基づいて各クラスタの特徴プロファイルを生成するデータセグメンテーションアルゴリズムを提案する。
このアルゴリズムを解説し、Instagramの実際のソーシャルメディアサイトデータと同様に、IrisとMNISTデータセットを用いてケーススタディを提供する。
論文 参考訳(メタデータ) (2020-10-26T15:59:15Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。