論文の概要: Performance of models for monitoring sustainable development goals from remote sensing: A three-level meta-regression
- arxiv url: http://arxiv.org/abs/2601.06178v1
- Date: Wed, 07 Jan 2026 15:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.646369
- Title: Performance of models for monitoring sustainable development goals from remote sensing: A three-level meta-regression
- Title(参考訳): リモートセンシングによる持続可能な開発目標監視モデルの性能:三段階メタ回帰
- Authors: Jonas Klingwort, Nina M. Leach, Joep Burger,
- Abstract要約: 機械学習(ML)は、国連の持続可能な開発目標の監視と実装にリモートセンシングデータを活用するためのツールである。
本稿では,SDGをモニタするリモートセンシングデータに適用したMLの性能を評価するメタ分析について報告する。
総合的な精度は最も報告された性能指標であり、二重アルキシン変換と3レベルランダム効果モデルを用いて分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) is a tool to exploit remote sensing data for the monitoring and implementation of the United Nations' Sustainable Development Goals (SDGs). In this paper, we report on a meta-analysis to evaluate the performance of ML applied to remote sensing data to monitor SDGs. Specifically, we aim to 1) estimate the average performance; 2) determine the degree of heterogeneity between and within studies; and 3) assess how study features influence model performance. Using PRISMA guidelines, a search was performed across multiple academic databases to identify potentially relevant studies. A random sample of 200 was screened by three reviewers, resulting in 86 trials within 20 studies with 14 study features. Overall accuracy was the most reported performance metric. It was analyzed using double arcsine transformation and a three-level random effects model. The average overall accuracy of the best model was 0.90 [0.86, 0.92]. There was considerable heterogeneity in model performance, 64% of which was between studies. The only significant feature was the prevalence of the majority class, which explained 61% of the between-study heterogeneity. None of the other thirteen features added value to the model. The most important contributions of this paper are the following two insights. 1) Overall accuracy is the most popular performance metric, yet arguably the least insightful. Its sensitivity to class imbalance makes it necessary to normalize it, which is far from common practice. 2) The field needs to standardize the reporting. Reporting of the confusion matrix for independent test sets is the most important ingredient for between-study comparisons of ML classifiers. These findings underscore the need for robust and comparable evaluation metrics in machine learning applications to ensure reliable and actionable insights for effective SDG monitoring and policy formulation.
- Abstract(参考訳): 機械学習(ML)は、国連の持続可能な開発目標(SDG)の監視と実装にリモートセンシングデータを活用するためのツールである。
本稿では,SDGをモニタするリモートセンシングデータに適用したMLの性能を評価するメタ分析について報告する。
具体的には
1) 平均性能を見積もる。
2 研究及び内部の不均一性の程度を定めること。
3)研究の特徴がモデル性能にどのように影響するかを評価する。
PRISMAガイドラインを用いて、潜在的に関連する研究を特定するために、複数の学術データベースで検索が行われた。
ランダムなサンプル200枚を3人のレビュアーによってスクリーニングし、その結果、14の特徴を持つ20の試験で86の試験が行われた。
総合的な精度は最も報告された性能指標であった。
二重アルキシン変換と3レベルランダム効果モデルを用いて解析した。
モデル全体の平均精度は0.90[0.86, 0.92]であった。
モデル性能にはかなりの異質性があり、そのうち64%は研究の間であった。
唯一の重要な特徴は多数派が出現することであり、これは学際的不均一性の61%を説明できた。
他の13の機能はいずれもモデルに付加価値を持たなかった。
この論文の最も重要な貢献は、以下の2つの洞察である。
1) 総合的精度は最も一般的なパフォーマンス指標であるが、おそらく最も洞察力の低い指標である。
クラス不均衡に対する感度は、通常の慣習とはかけ離れた正規化を必要とする。
2)報告を標準化する必要がある。
独立したテストセットに対する混乱行列の報告は、ML分類器間の比較において最も重要な要素である。
これらの知見は、効果的なSDGモニタリングとポリシー定式化のための信頼性と実用的な洞察を確保するために、機械学習アプリケーションにおける堅牢で同等の評価指標の必要性を浮き彫りにしている。
関連論文リスト
- AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - A meta-analysis on the performance of machine-learning based language models for sentiment analysis [0.5243460995467893]
本研究の目的は, 平均性能を推定し, 研究間の不均一性を評価し, 研究特性がモデル性能に与える影響を分析することである。
全体的な精度は広く使用されているが、クラス不均衡に対する感受性と感情クラスの数によってしばしば誤解を招く。
論文 参考訳(メタデータ) (2025-09-10T10:05:32Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。