論文の概要: Enabling Advanced Land Cover Analytics: An Integrated Data Extraction Pipeline for Predictive Modeling with the Dynamic World Dataset
- arxiv url: http://arxiv.org/abs/2410.09135v1
- Date: Fri, 11 Oct 2024 16:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:03:11.150740
- Title: Enabling Advanced Land Cover Analytics: An Integrated Data Extraction Pipeline for Predictive Modeling with the Dynamic World Dataset
- Title(参考訳): 土地被覆分析の高度化:動的世界データを用いた予測モデリングのための統合的データ抽出パイプライン
- Authors: Victor Radermecker, Andrea Zanon, Nancy Thomas, Annita Vapsi, Saba Rahimi, Rama Ramakrishnan, Daniel Borrajo,
- Abstract要約: Dynamic Worldデータセットを扱うために、フレキシブルで効率的なエンドツーエンドパイプラインを提示します。
これには、ノイズ除去に取り組む前処理および表現フレームワーク、大量のデータの効率的な抽出、LULCデータの再表現が含まれる。
パイプラインのパワーを実証するために、都市化予測問題のためのデータを抽出し、優れたパフォーマンスで機械学習モデルのスイートを構築する。
- 参考スコア(独自算出の注目度): 1.3757956340051605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding land cover holds considerable potential for a myriad of practical applications, particularly as data accessibility transitions from being exclusive to governmental and commercial entities to now including the broader research community. Nevertheless, although the data is accessible to any community member interested in exploration, there exists a formidable learning curve and no standardized process for accessing, pre-processing, and leveraging the data for subsequent tasks. In this study, we democratize this data by presenting a flexible and efficient end to end pipeline for working with the Dynamic World dataset, a cutting-edge near-real-time land use/land cover (LULC) dataset. This includes a pre-processing and representation framework which tackles noise removal, efficient extraction of large amounts of data, and re-representation of LULC data in a format well suited for several downstream tasks. To demonstrate the power of our pipeline, we use it to extract data for an urbanization prediction problem and build a suite of machine learning models with excellent performance. This task is easily generalizable to the prediction of any type of land cover and our pipeline is also compatible with a series of other downstream tasks.
- Abstract(参考訳): 特に、データアクセシビリティーが政府や商業団体に排他的になるから、より広い研究コミュニティを含む現在へと移行するにつれて、土地のカバーを理解することは、多くの実践的応用にとって大きな可能性を秘めている。
それでも、データは探索に関心のあるすべてのコミュニティメンバーにアクセスできるが、恐ろしい学習曲線が存在し、データにアクセス、前処理、その後のタスクに活用するための標準化されたプロセスはない。
本研究では, 最先端の土地利用/土地被覆(LULC)データセットであるDynamic Worldデータセットを扱うための, フレキシブルで効率的なエンド・ツー・エンドパイプラインを提示することにより, このデータを民主化する。
これには、ノイズ除去に取り組む事前処理および表現フレームワーク、大量のデータの効率的な抽出、複数の下流タスクに適したフォーマットでのLULCデータの再表現が含まれる。
パイプラインのパワーを実証するために、都市化予測問題のためのデータを抽出し、優れたパフォーマンスで機械学習モデルのスイートを構築する。
このタスクは任意の種類の土地被覆の予測に容易に一般化でき、パイプラインは他の下流タスクと互換性がある。
関連論文リスト
- Data Processing for the OpenGPT-X Model Family [32.8178473342263]
本稿では,OpenGPT-Xプロジェクトで開発されたデータ準備パイプラインの概要について述べる。
プロジェクトの目的は、オープンで高性能な多言語大言語モデル(LLM)を作ることである。
データ選択と要件定義からモデルトレーニングの最終データセットの準備まで、すべてのデータ処理手順を説明します。
論文 参考訳(メタデータ) (2024-10-11T13:34:24Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - RINAS: Training with Dataset Shuffling Can Be General and Fast [2.485503195398027]
RINASは、グローバルシャッフルデータセットをロードする際のパフォーマンスボトルネックに対処するデータローディングフレームワークである。
We implement RINAS under the PyTorch framework for common dataset library HuggingFace and TorchVision。
実験の結果,RINASは汎用言語モデルトレーニングと視覚モデルトレーニングのスループットを最大59%,視力モデルトレーニングは89%向上した。
論文 参考訳(メタデータ) (2023-12-04T21:50:08Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Deep residential representations: Using unsupervised learning to unlock
elevation data for geo-demographic prediction [0.0]
LiDAR技術は、都市景観と農村景観の詳細な3次元標高マップを提供するために利用することができる。
現在まで、空中LiDAR画像は、主に環境と考古学の領域に限られている。
我々は、このデータの適合性は、独自のだけでなく、人口統計学的特徴と組み合わせたデータの源でもあると考え、埋め込みの現実的なユースケースを提供する。
論文 参考訳(メタデータ) (2021-12-02T17:10:52Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。