論文の概要: SocialX: A Modular Platform for Multi-Source Big Data Research in Indonesia
- arxiv url: http://arxiv.org/abs/2603.26253v1
- Date: Fri, 27 Mar 2026 10:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.443237
- Title: SocialX: A Modular Platform for Multi-Source Big Data Research in Indonesia
- Title(参考訳): SocialX: インドネシアのマルチソースビッグデータ研究のためのモジュール型プラットフォーム
- Authors: Muhammad Apriandito Arya Saputra, Andry Alamsyah, Dian Puteri Ramadhani, Thomhert Suprapto Siadari, Hanif Fakhrurroja,
- Abstract要約: SocialXはインドネシアのビッグデータ研究のためのモジュラープラットフォームである。
異種データ収集、言語対応の事前処理、プラグイン可能な分析を統一されたソースに依存しないパイプラインに統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Big data research in Indonesia is constrained by a fundamental fragmentation: relevant data is scattered across social media, news portals, e-commerce platforms, review sites, and academic databases, each with different formats, access methods, and noise characteristics. Researchers must independently build collection pipelines, clean heterogeneous data, and assemble separate analysis tools, a process that often overshadows the research itself. We present SocialX, a modular platform for multi-source big data research that integrates heterogeneous data collection, language-aware preprocessing, and pluggable analysis into a unified, source-agnostic pipeline. The platform separates concerns into three independent layers (collection, preprocessing, and analysis) connected by a lightweight job-coordination mechanism. This modularity allows each layer to grow independently: new data sources, preprocessing methods, or analysis tools can be added without modifying the existing pipeline. We describe the design principles that enable this extensibility, detail the preprocessing methodology that addresses challenges specific to Indonesian text across registers, and demonstrate the platform's utility through a walkthrough of a typical research workflow. SocialX is publicly accessible as a web-based platform at https://www.socialx.id.
- Abstract(参考訳): 関連するデータはソーシャルメディア、ニュースポータル、eコマースプラットフォーム、レビューサイト、学術データベースに分散し、それぞれ異なるフォーマット、アクセス方法、ノイズ特性を持つ。
研究者は独立して収集パイプラインを構築し、異種データをきれいにし、別々の分析ツールを組み立てなければならない。
異種データ収集,言語対応の事前処理,プラグイン可能な解析を統合されたソースに依存しないパイプラインに統合する,マルチソースビッグデータ研究用モジュールプラットフォームであるSocialXについて紹介する。
このプラットフォームは、懸念を3つの独立したレイヤ(集合、前処理、分析)に分離し、軽量なジョブ調整機構で接続する。
新しいデータソース、前処理方法、分析ツールを既存のパイプラインを変更することなく追加することができる。
本稿では,この拡張性を実現する設計原則について述べるとともに,インドネシア語テキストのレジスタを越えた課題に対処する事前処理方法論を詳述するとともに,典型的な研究ワークフローのウォークスルーを通じて,プラットフォームの有用性を実証する。
SocialX は Web ベースのプラットフォームとして https://www.socialx.id で公開されている。
関連論文リスト
- Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。
SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。
本稿では,この新興領域を体系的に調査する。
論文 参考訳(メタデータ) (2026-01-15T18:55:03Z) - DataParasite Enables Scalable and Repurposable Online Data Curation [0.9543667840503739]
DataParasiteはスケーラブルなオンラインデータ収集のためのモジュールパイプラインである。
キュレーションタスクを独立したエンティティレベルの検索に分解する。
データの収集コストを手作業によるキュレーションと比較して桁違いに削減しながら高い精度を達成する。
論文 参考訳(メタデータ) (2026-01-05T22:04:16Z) - MARSAD: A Multi-Functional Tool for Real-Time Social Media Analysis [7.268812063067803]
MARSADは、リアルタイムソーシャルメディア監視と分析のために設計された多機能自然言語処理(NLP)プラットフォームである。
研究者や非技術者でも、ライブおよびアーカイブされたソーシャルメディアコンテンツの両方を調べることができる。
感情分析、感情分析、プロパガンダ検出、ファクトチェック、ヘイトスピーチ検出など、さまざまな側面にわたる詳細な可視化とレポートを生成する。
論文 参考訳(メタデータ) (2025-12-01T07:31:37Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - Towards High-Fidelity Synthetic Multi-platform Social Media Datasets via Large Language Models [0.0]
ソーシャルメディアデータセットは、偽情報、インフルエンサー操作、ヘイトスピーチ検出、インフルエンサーマーケティングプラクティスなど、さまざまなトピックの研究に不可欠である。
ソーシャルメディアのデータセットへのアクセスは、コストとプラットフォーム制限のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2025-05-02T18:56:01Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [83.65386456026441]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがる100以上のデータ処理オペレータがバックアップするデータ処理システムである。
データ分析、合成、アノテーション、基礎モデルのポストトレーニングなど、より重要なタスクをサポートする。
このシステムは公開されており、さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Leveraging GPT for the Generation of Multi-Platform Social Media Datasets for Research [0.0]
ソーシャルメディアデータセットは、偽情報、影響操作、ソーシャルセンシング、ヘイトスピーチ検出、サイバーいじめ、その他の重要なトピックの研究に不可欠である。
これらのデータセットへのアクセスは、コストとプラットフォーム規制のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-11T09:12:39Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Analytical Engines With Context-Rich Processing: Towards Efficient
Next-Generation Analytics [12.317930859033149]
我々は、文脈に富む分析を可能にするコンポーネントと協調して最適化された分析エンジンを構想する。
我々は、リレーショナルおよびモデルベース演算子間の総括的なパイプラインコストとルールベースの最適化を目指している。
論文 参考訳(メタデータ) (2022-12-14T21:46:33Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。