論文の概要: How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning
- arxiv url: http://arxiv.org/abs/2412.06451v1
- Date: Mon, 09 Dec 2024 12:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:27.821777
- Title: How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning
- Title(参考訳): 不確かさ推定はどの程度あるか? 機械学習における不確かさ定量化のベンチマークのための3つの新しい地球観測データセット
- Authors: Yuanyuan Wang, Qian Song, Dawood Wasif, Muhammad Shahzad, Christoph Koller, Jonathan Bamber, Xiao Xiang Zhu,
- Abstract要約: 不確実性定量化(UQ)は、地球観測(EO)製品の信頼性を評価するために不可欠である。
機械学習モデルには様々なUQ方法が存在するが、EOデータセットのパフォーマンスはほとんど評価されていない。
この記事では、EO機械学習モデルでUQ用に特別に設計された3つのベンチマークデータセットを紹介する。
- 参考スコア(独自算出の注目度): 15.306338199978269
- License:
- Abstract: Uncertainty quantification (UQ) is essential for assessing the reliability of Earth observation (EO) products. However, the extensive use of machine learning models in EO introduces an additional layer of complexity, as those models themselves are inherently uncertain. While various UQ methods do exist for machine learning models, their performance on EO datasets remains largely unevaluated. A key challenge in the community is the absence of the ground truth for uncertainty, i.e. how certain the uncertainty estimates are, apart from the labels for the image/signal. This article fills this gap by introducing three benchmark datasets specifically designed for UQ in EO machine learning models. These datasets address three common problem types in EO: regression, image segmentation, and scene classification. They enable a transparent comparison of different UQ methods for EO machine learning models. We describe the creation and characteristics of each dataset, including data sources, preprocessing steps, and label generation, with a particular focus on calculating the reference uncertainty. We also showcase baseline performance of several machine learning models on each dataset, highlighting the utility of these benchmarks for model development and comparison. Overall, this article offers a valuable resource for researchers and practitioners working in artificial intelligence for EO, promoting a more accurate and reliable quality measure of the outputs of machine learning models. The dataset and code are accessible via https://gitlab.lrz.de/ai4eo/WG_Uncertainty.
- Abstract(参考訳): 不確実性定量化(UQ)は、地球観測(EO)製品の信頼性を評価するために不可欠である。
しかし、EOにおける機械学習モデルの広範な使用は、それらのモデル自体が本質的に不確実であるため、さらなる複雑さの層をもたらす。
機械学習モデルには様々なUQ手法が存在するが、EOデータセットのパフォーマンスはほとんど評価されていない。
コミュニティにおける重要な課題は、画像/信号のラベルとは別に、不確実性に関する基礎的な真実が存在しないことである。
この記事では、EO機械学習モデルでUQ用に特別に設計された3つのベンチマークデータセットを導入することで、このギャップを埋める。
これらのデータセットは、回帰、イメージセグメンテーション、シーン分類という、EOの3つの一般的な問題タイプに対処する。
それらは、EO機械学習モデルのための異なるUQメソッドの透過的な比較を可能にする。
本稿では,データソース,前処理ステップ,ラベル生成など,各データセットの生成と特性について述べる。
また、各データセット上で複数の機械学習モデルのベースライン性能を示し、モデル開発と比較のためのこれらのベンチマークの有用性を強調した。
全体として、この記事では、EOのための人工知能に携わる研究者や実践者に貴重なリソースを提供し、機械学習モデルの出力のより正確で信頼性の高い品質測定を推進します。
データセットとコードはhttps://gitlab.lrz.de/ai4eo/WG_Uncertaintyを通じてアクセスすることができる。
関連論文リスト
- Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks [0.0]
複数のタスクにまたがって集約されたメトリクスの不確かさを定量化するために,統計的手法がいかに用いられるかを示す。
これらの技術は、全体的なパフォーマンスが劣っているにもかかわらず、特定のタスクに対する特定のモデルの優位性のような洞察を浮き彫りにする。
論文 参考訳(メタデータ) (2025-01-08T02:17:34Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Towards Machine Unlearning Benchmarks: Forgetting the Personal
Identities in Facial Recognition Systems [4.985768723667418]
本研究では,モデルの本来のタスクを維持しつつ,個人のプライバシ(アイデンティティ)を含む特定のインスタンスを解放することを目的とした機械学習環境を提案する。
具体的には、MUCACとMUFACの2つの機械学習ベンチマークデータセットを提案し、機械学習アルゴリズムの性能と堅牢性を評価するのに非常に有用である。
論文 参考訳(メタデータ) (2023-11-03T21:00:32Z) - AQuA: A Benchmarking Tool for Label Quality Assessment [16.83510474053401]
近年の研究では、機械学習モデルのトレーニングと評価に広く使用されているデータセットに、広範なラベル付けエラーがあることがわかった。
本稿では,ラベルノイズの存在下で機械学習を可能にする手法を厳格に評価するためのベンチマーク環境AQuAを提案する。
論文 参考訳(メタデータ) (2023-06-15T19:42:11Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Machine learning with incomplete datasets using multi-objective
optimization models [1.933681537640272]
分類モデルが学習されている間、欠落した値を扱うオンラインアプローチを提案する。
命令とモデル選択のための2つの目的関数を持つ多目的最適化モデルを開発する。
NSGA IIに基づく進化的アルゴリズムを用いて最適解を求める。
論文 参考訳(メタデータ) (2020-12-04T03:44:33Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。