論文の概要: Comparative analysis of large data processing in Apache Spark using Java, Python and Scala
- arxiv url: http://arxiv.org/abs/2510.19012v1
- Date: Tue, 21 Oct 2025 18:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.519777
- Title: Comparative analysis of large data processing in Apache Spark using Java, Python and Scala
- Title(参考訳): Java, Python, Scala を用いた Apache Spark における大規模データ処理の比較解析
- Authors: Ivan Borodii, Illia Fedorovych, Halyna Osukhivska, Diana Velychko, Roman Butsii,
- Abstract要約: この分析は、CSVファイルからデータをダウンロードし、Apache Icebergテーブルに変換してロードするなど、いくつかの操作を実行することで実施された。
その結果,Sparkアルゴリズムの性能は,使用するデータ量やプログラミング言語によって大きく異なることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: During the study, the results of a comparative analysis of the process of handling large datasets using the Apache Spark platform in Java, Python, and Scala programming languages were obtained. Although prior works have focused on individual stages, comprehensive comparisons of full ETL workflows across programming languages using Apache Iceberg remain limited. The analysis was performed by executing several operations, including downloading data from CSV files, transforming and loading it into an Apache Iceberg analytical table. It was found that the performance of the Spark algorithm varies significantly depending on the amount of data and the programming language used. When processing a 5-megabyte CSV file, the best result was achieved in Python: 6.71 seconds, which is superior to Scala's score of 9.13 seconds and Java's time of 9.62 seconds. For processing a large CSV file of 1.6 gigabytes, all programming languages demonstrated similar results: the fastest performance was showed in Python: 46.34 seconds, while Scala and Java showed results of 47.72 and 50.56 seconds, respectively. When performing a more complex operation that involved combining two CSV files into a single dataset for further loading into an Apache Iceberg table, Scala demonstrated the highest performance, at 374.42 seconds. Java processing was completed in 379.8 seconds, while Python was the least efficient, with a runtime of 398.32 seconds. It follows that the programming language significantly affects the efficiency of data processing by the Apache Spark algorithm, with Scala and Java being more productive for processing large amounts of data and complex operations, while Python demonstrates an advantage in working with small amounts of data. The results obtained can be useful for optimizing data handling processes depending on specific performance requirements and the amount of information being processed.
- Abstract(参考訳): 調査では、Java、Python、Scalaのプログラミング言語でApache Sparkプラットフォームを使用して大規模なデータセットを処理するプロセスの比較分析結果が得られた。
以前の作業では個々のステージに重点を置いていたが、Apache Icebergを使用したプログラミング言語間での完全なETLワークフローの包括的な比較は限定的のままである。
この分析は、CSVファイルからデータをダウンロードし、Apache Iceberg分析テーブルに変換してロードするなど、いくつかの操作を実行することで実施された。
その結果,Sparkアルゴリズムの性能は,使用するデータ量やプログラミング言語によって大きく異なることがわかった。
5メガバイトのCSVファイルを処理する場合、Pythonでは6.71秒、Scalaのスコア9.13秒、Javaのタイム9.62秒よりも優れている。
1.6ギガバイトの大規模なCSVファイルを処理する場合、全てのプログラミング言語が同様の結果を示した: Pythonで最速のパフォーマンスは46.34秒、ScalaとJavaはそれぞれ47.72秒、50.56秒であった。
2つのCSVファイルを1つのデータセットにまとめてApache Icebergテーブルにさらにロードする、より複雑な操作を実行すると、Scalaは最高パフォーマンスを374.42秒で証明した。
Java処理は379.8秒で完了し、Pythonは398.32秒で実行された。
プログラム言語はApache Sparkアルゴリズムによるデータ処理の効率に大きく影響し、ScalaとJavaは大量のデータと複雑な操作を処理するのにより生産的であり、Pythonは少量のデータを扱うのに有利である。
得られた結果は、特定のパフォーマンス要求と処理される情報量に応じて、データ処理プロセスの最適化に有用である。
関連論文リスト
- EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code [37.712780804235045]
EffiBench-X は LLM 生成コードの効率を測定するために設計された最初のマルチ言語ベンチマークである。
Python、C++、Java、JavaScript、Ruby、Golangをサポートする。
競争力のあるプログラミングタスクと人間の専門的なソリューションをベースラインとして構成する。
論文 参考訳(メタデータ) (2025-05-19T11:43:37Z) - Intelligent Spark Agents: A Modular LangGraph Framework for Scalable, Visualized, and Enhanced Big Data Machine Learning Workflows [1.4582633500696451]
LangGraphフレームワークは、スケーラビリティ、視覚化、インテリジェントなプロセス最適化を通じて機械学習を強化するように設計されている。
このフレームワークの中核となるのは、Sparkの分散コンピューティング機能を活用する重要なイノベーションであるAgent AIだ。
フレームワークにはLangChainエコシステムを通じて大きな言語モデルも組み込まれており、構造化されていないデータとのインタラクションが強化されている。
論文 参考訳(メタデータ) (2024-12-02T13:41:38Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Python is Not Always the Best Choice: Embracing Multilingual Program of Thoughts [51.49688654641581]
本稿では,多言語からの強みと多様性を生かしたMultiPoTというタスクとモデル非依存のアプローチを提案する。
実験の結果、Python Self-Consistencyを著しく上回ることがわかった。
特にMultiPoTはChatGPT(gpt-3.5-turbo-0701)で平均4.6%以上の改善を実現している。
論文 参考訳(メタデータ) (2024-02-16T13:48:06Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Benchmarking Apache Spark and Hadoop MapReduce on Big Data
Classification [3.42658286826597]
我々は、Apache SparkとHadoop MapReduceという2つの広く使われているビッグデータ分析ツールの共通データマイニングタスク、すなわち分類に関するベンチマークを提示する。
我々は、SparkがモデルのトレーニングにおいてMapReduceよりも5倍高速であることを示した。しかしながら、Sparkのパフォーマンスは、入力ワークロードが大きくなると低下する。
論文 参考訳(メタデータ) (2022-09-21T20:08:37Z) - Performance Evaluation of Query Plan Recommendation with Apache Hadoop
and Apache Spark [1.8205323885957208]
MapReduceベースのアクセス計画レコメンデーション手法は、クエリデータセットの異なるサイズをクラスタリングするために使用される。
実験では、並列クエリクラスタリングが高いスケーラビリティを実現する上での有効性を実証した。
Apache SparkはApache Hadoopよりもパフォーマンスが向上し、平均2倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2022-09-17T21:13:05Z) - ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type
Inference [9.384801062680786]
ManyTypes4Pyは、機械学習(ML)ベースの型推論のための大きなPythonデータセットである。
データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。
論文 参考訳(メタデータ) (2021-04-10T08:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。