論文の概要: Design and Evaluation of a Scalable Data Pipeline for AI-Driven Air Quality Monitoring in Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2508.14451v1
- Date: Wed, 20 Aug 2025 06:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.357932
- Title: Design and Evaluation of a Scalable Data Pipeline for AI-Driven Air Quality Monitoring in Low-Resource Settings
- Title(参考訳): 低リソース環境におけるAI駆動空気質モニタリングのためのスケーラブルデータパイプラインの設計と評価
- Authors: Richard Sserujongi, Daniel Ogenrwot, Nicholas Niwamanya, Noah Nsimbe, Martin Bbaale, Benjamin Ssempala, Noble Mutabazi, Raja Fidel Wabinyai, Deo Okure, Engineer Bainomugisha,
- Abstract要約: 本稿では,AirQoデータパイプラインの設計,実装,評価について述べる。
Apache Airflow、Apache Kafka、Google BigQueryといったオープンソースの技術を使って構築されている。
我々は、400以上の監視装置から毎月数百万の空気品質の測定を取り込み、変換し、分散するパイプラインの能力を実証する。
- 参考スコア(独自算出の注目度): 0.4681310436826459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing adoption of low-cost environmental sensors and AI-enabled applications has accelerated the demand for scalable and resilient data infrastructures, particularly in data-scarce and resource-constrained regions. This paper presents the design, implementation, and evaluation of the AirQo data pipeline: a modular, cloud-native Extract-Transform-Load (ETL) system engineered to support both real-time and batch processing of heterogeneous air quality data across urban deployments in Africa. It is Built using open-source technologies such as Apache Airflow, Apache Kafka, and Google BigQuery. The pipeline integrates diverse data streams from low-cost sensors, third-party weather APIs, and reference-grade monitors to enable automated calibration, forecasting, and accessible analytics. We demonstrate the pipeline's ability to ingest, transform, and distribute millions of air quality measurements monthly from over 400 monitoring devices while achieving low latency, high throughput, and robust data availability, even under constrained power and connectivity conditions. The paper details key architectural features, including workflow orchestration, decoupled ingestion layers, machine learning-driven sensor calibration, and observability frameworks. Performance is evaluated across operational metrics such as resource utilization, ingestion throughput, calibration accuracy, and data availability, offering practical insights into building sustainable environmental data platforms. By open-sourcing the platform and documenting deployment experiences, this work contributes a reusable blueprint for similar initiatives seeking to advance environmental intelligence through data engineering in low-resource settings.
- Abstract(参考訳): 低コストの環境センサとAI対応アプリケーションの採用の増加により、スケーラブルでレジリエントなデータインフラストラクチャ、特にデータスカースやリソース制約のあるリージョンへの需要が加速した。
本稿では,アフリカにおける都市展開における異種大気質データのリアルタイム処理とバッチ処理の両方をサポートするために,モジュール型でクラウドネイティブな抽出-変換-ロード(ETL)システムであるAirQoデータパイプラインの設計,実装,評価について述べる。
Apache Airflow、Apache Kafka、Google BigQueryといったオープンソースの技術を使って構築されている。
このパイプラインは、低コストのセンサー、サードパーティの天気予報API、参照グレードモニタからのさまざまなデータストリームを統合して、自動キャリブレーション、予測、アクセス可能な分析を可能にする。
制約された電力と接続条件下であっても、低レイテンシ、高スループット、堅牢なデータ可用性を実現しつつ、400以上の監視デバイスから毎月数百万の空気品質測定を取り込み、変換し、分散するパイプラインの能力を実証する。
この論文では、ワークフローオーケストレーション、分離された取り込みレイヤ、マシンラーニング駆動のセンサーキャリブレーション、可観測性フレームワークなど、重要なアーキテクチャ機能について詳述している。
パフォーマンスは、リソース利用、摂取スループット、キャリブレーション精度、データ可用性などの運用メトリクスで評価され、持続可能な環境データプラットフォームの構築に関する実践的な洞察を提供する。
プラットフォームのオープンソース化とデプロイメントエクスペリエンスのドキュメント化によって、この作業は、低リソース環境でのデータエンジニアリングを通じて環境インテリジェンスを向上しようとする、同様のイニシアチブのための再利用可能な青写真に寄与する。
関連論文リスト
- GreenCrossingAI: A Camera Trap/Computer Vision Pipeline for Environmental Science Research Groups [0.0]
カメラトラップは、動物行動、個体群動態、生息地利用、種多様性を非侵襲的で効率的な方法で監視し研究するために、野生生物研究者によって長い間使われてきた。
フィールドからのデータ収集は、新しいツールや機能によって増加したが、データの開発、処理、管理の方法、特にML/AIツールの採用は、依然として困難なままである。
本稿では,限られたリソースと計算能力を持つ小規模研究グループに適したML/AI機能を導入し,低リソースパイプラインによるカメラトラップデータの処理をオンプレミスで行うためのガイドを提供する。
論文 参考訳(メタデータ) (2025-07-12T22:02:55Z) - Provenance Tracking in Large-Scale Machine Learning Systems [0.0]
y4MLは、W3C PROVとProvProvML標準に準拠したフォーマットでデータを収集するように設計されたツールである。
y4MLはyProvフレームワークと完全に統合されており、ワークフロー管理システムを通じて実行されるタスクの高レベルなペアリングを可能にする。
論文 参考訳(メタデータ) (2025-07-01T14:10:02Z) - Enhancing Pavement Sensor Data Acquisition for AI-Driven Transportation Research [1.22995445255292]
本稿では,交通センサデータ管理のための包括的ガイドラインを提案する。
アーカイブされた静的データとリアルタイムデータストリームの両方をカバーする。
この提案は、I-65とI-69グリーンフィールドを含むINDOTの現実世界のケーススタディに適用された。
論文 参考訳(メタデータ) (2025-02-20T03:37:46Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Outsourcing Training without Uploading Data via Efficient Collaborative
Open-Source Sampling [49.87637449243698]
従来のアウトソーシングでは、デバイスデータをクラウドサーバにアップロードする必要がある。
我々は、公開および異種ソースから収集された膨大なデータセットである、広く利用可能なオープンソースデータを活用することを提案する。
我々は,オープンソースデータからクラウドトレーニングのためのプロキシデータセットを構築するための,ECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。
論文 参考訳(メタデータ) (2022-10-23T00:12:18Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - ESTemd: A Distributed Processing Framework for Environmental Monitoring
based on Apache Kafka Streaming Engine [0.0]
分散ネットワークとリアルタイムシステムは、新しいコンピュータ時代、モノのインターネットにとって最も重要なコンポーネントになりつつある。
生成されたデータは、微妙な生態から自然資源、都市環境まで、環境指標を計測、推測、理解する能力を提供する。
不均質な環境データにストリーム処理を適用するための分散フレームワークであるEvent STream Processing Engine for Environmental Monitoring Domain (ESTemd)を提案する。
論文 参考訳(メタデータ) (2021-04-02T15:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。