論文の概要: Mapping on a Budget: Optimizing Spatial Data Collection for ML
- arxiv url: http://arxiv.org/abs/2509.03749v1
- Date: Wed, 03 Sep 2025 22:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.988266
- Title: Mapping on a Budget: Optimizing Spatial Data Collection for ML
- Title(参考訳): 予算のマッピング:MLのための空間データ収集の最適化
- Authors: Livia Betti, Farooq Sanni, Gnouyaro Sogoyou, Togbe Agbagla, Cullen Molitor, Tamma Carleton, Esther Rolf,
- Abstract要約: 農業、生態学、人間開発にまたがる応用において、衛星画像(SatML)を用いた機械学習はラベル付きトレーニングデータの範囲によって制限される。
不均一なデータ収集コストの存在下で空間訓練データの最適化のための最初の問題定式化を提案する。
- 参考スコア(独自算出の注目度): 4.026605636117829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In applications across agriculture, ecology, and human development, machine learning with satellite imagery (SatML) is limited by the sparsity of labeled training data. While satellite data cover the globe, labeled training datasets for SatML are often small, spatially clustered, and collected for other purposes (e.g., administrative surveys or field measurements). Despite the pervasiveness of this issue in practice, past SatML research has largely focused on new model architectures and training algorithms to handle scarce training data, rather than modeling data conditions directly. This leaves scientists and policymakers who wish to use SatML for large-scale monitoring uncertain about whether and how to collect additional data to maximize performance. Here, we present the first problem formulation for the optimization of spatial training data in the presence of heterogeneous data collection costs and realistic budget constraints, as well as novel methods for addressing this problem. In experiments simulating different problem settings across three continents and four tasks, our strategies reveal substantial gains from sample optimization. Further experiments delineate settings for which optimized sampling is particularly effective. The problem formulation and methods we introduce are designed to generalize across application domains for SatML; we put special emphasis on a specific problem setting where our coauthors can immediately use our findings to augment clustered agricultural surveys for SatML monitoring in Togo.
- Abstract(参考訳): 農業、生態学、人間開発にまたがる応用において、衛星画像(SatML)を用いた機械学習はラベル付きトレーニングデータの範囲によって制限される。
衛星データは地球をカバーしているが、ラベル付きSatMLのトレーニングデータセットは小さく、空間的にクラスタ化され、他の目的(例えば、行政調査やフィールド測定)のために収集されることが多い。
この問題の現実的な普及にもかかわらず、SatMLの過去の研究は、データ条件を直接モデル化するのではなく、不足するトレーニングデータを扱うための新しいモデルアーキテクチャとトレーニングアルゴリズムに重点を置いてきた。
これにより、SatMLを大規模監視に利用したい科学者や政策立案者は、パフォーマンスを最大化するために追加データを収集する方法を不確実にすることができる。
本稿では,不均一なデータ収集コストと現実的な予算制約の存在下での空間訓練データの最適化のための最初の問題定式化と,この問題に対処するための新しい方法を提案する。
3つの大陸と4つのタスクにまたがる異なる問題設定をシミュレートする実験において、我々の戦略はサンプル最適化からかなりの利益を得ることを示した。
さらなる実験では、最適化されたサンプリングが特に効果的である設定を明確にする。
この問題の定式化と手法は,SatMLのアプリケーション領域をまたがって一般化するために設計されており,共同研究者が直ちに,TogoにおけるSatMLモニタリングのためのクラスタ化された農業調査を拡大することのできる,特定の問題設定に特に重点を置いている。
関連論文リスト
- Can Large Language Models Integrate Spatial Data? Empirical Insights into Reasoning Strengths and Computational Weaknesses [11.330846631937671]
我々は,大規模で異質で騒々しい都市空間データセットの統合において,ドメインエキスパートに力を与えるために,大規模言語モデル(LLM)の適用について検討する。
LLMは空間的推論能力を示すが、マクロスケール環境と関連する計算幾何学的タスクを結びつけるのに苦労している。
この手法は, 正確な応答を保ちながら, 誤った初期応答の補正に極めて有効であることを示す。
論文 参考訳(メタデータ) (2025-08-07T03:44:20Z) - Using Multiple Input Modalities Can Improve Data-Efficiency and O.O.D. Generalization for ML with Satellite Imagery [3.3964392722361785]
衛星画像(SatML)に基づいて訓練された機械学習モデルの大部分は、主にマルチスペクトル衛星画像のような光学的入力モダリティのために設計されている。
分類、回帰、セグメンテーションにまたがるデータセットに地理的データ層を追加することで、SatMLベンチマークタスクの拡張バージョンを生成します。
また,SatMLモデルの性能向上が期待できる。
論文 参考訳(メタデータ) (2025-07-15T22:57:29Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Advancing ALS Applications with Large-Scale Pre-training: Dataset Development and Downstream Assessment [6.606615641354963]
事前訓練と微調整のパラダイムは、衛星リモートセンシングの応用に革命をもたらした。
大規模なALSポイントクラウドデータセットを構築し、下流アプリケーションへの影響を評価する。
以上の結果から,事前学習したモデルは,ダウンストリームタスク全体において,スクラッチよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-01-09T09:21:09Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Simulation-Enhanced Data Augmentation for Machine Learning Pathloss
Prediction [9.664420734674088]
本稿では,機械学習パスロス予測のための新しいシミュレーション強化データ拡張手法を提案する。
本手法は,細胞被覆シミュレータから生成した合成データと,独立して収集した実世界のデータセットを統合する。
合成データの統合は、異なる環境におけるモデルの一般化可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-03T00:38:08Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。