論文の概要: Ocean Data Quality Assessment through Outlier Detection-enhanced Active
Learning
- arxiv url: http://arxiv.org/abs/2312.10817v1
- Date: Sun, 17 Dec 2023 20:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:20:24.263587
- Title: Ocean Data Quality Assessment through Outlier Detection-enhanced Active
Learning
- Title(参考訳): Outlier Detection-enhanced Active Learningによる海洋データ品質評価
- Authors: Na Li, Yiyang Qi, Ruyue Xin, Zhiming Zhao
- Abstract要約: 海洋プロファイリングに特化したArgoネットワークは、膨大な量の観測データを生成する。
機械学習を含む既存の方法は、ラベル付きデータの不均衡なデータセットによって不足する。
ALを用いた海洋データ品質評価のためのOフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.274369283265131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ocean and climate research benefits from global ocean observation initiatives
such as Argo, GLOSS, and EMSO. The Argo network, dedicated to ocean profiling,
generates a vast volume of observatory data. However, data quality issues from
sensor malfunctions and transmission errors necessitate stringent quality
assessment. Existing methods, including machine learning, fall short due to
limited labeled data and imbalanced datasets. To address these challenges, we
propose an ODEAL framework for ocean data quality assessment, employing AL to
reduce human experts' workload in the quality assessment workflow and
leveraging outlier detection algorithms for effective model initialization. We
also conduct extensive experiments on five large-scale realistic Argo datasets
to gain insights into our proposed method, including the effectiveness of AL
query strategies and the initial set construction approach. The results suggest
that our framework enhances quality assessment efficiency by up to 465.5% with
the uncertainty-based query strategy compared to random sampling and minimizes
overall annotation costs by up to 76.9% using the initial set built with
outlier detectors.
- Abstract(参考訳): 海洋と気候の研究は、アルゴ、グロス、エムソなどの地球規模の海洋観測イニシアチブから恩恵を受けている。
海洋プロファイリングに特化したArgoネットワークは、膨大な量の観測データを生成する。
しかし、センサの誤動作や伝送エラーによるデータ品質問題は、厳密な品質評価を必要とする。
機械学習を含む既存の方法は、ラベル付きデータと不均衡データセットによって不足している。
そこで本研究では,海洋データ品質評価のためのodealフレームワークを提案し,alを用いて品質評価ワークフローにおける人間専門家の作業負荷を削減するとともに,異常検出アルゴリズムを有効モデル初期化に活用する。
また,alクエリ戦略の有効性や初期セット構築手法など,提案手法に対する洞察を得るために,5つの大規模argoデータセットについて広範な実験を行った。
その結果,不確実性に基づく問合せ戦略により,本フレームワークは品質評価効率を最大465.5%向上し,外乱検出器で構築した初期セットを用いて全体のアノテーションコストを最大76.9%削減できることがわかった。
関連論文リスト
- How Reliable Is Human Feedback For Aligning Large Language Models? [24.66495636695214]
我々は総合的な研究を行い、人間のフィードバックデータの詳細な分析を行う。
誤ラベル,主観的嗜好,異なる基準と無害性のしきい値など,信頼性の低い6つの要因を同定する。
本稿では,データ品質を著しく向上させるために,定性解析の洞察に導かれる自動データクリーニング手法である Source-Aware Cleaning を提案する。
論文 参考訳(メタデータ) (2024-10-02T19:03:42Z) - Assessment of Spectral based Solutions for the Detection of Floating Marine Debris [2.3558144417896587]
近年,MARIDA (Marine Debris Archive) が,マリンプラスチックデブリ検出のための機械学習(ML)アルゴリズムの開発と評価のための標準データセットとしてリリースされた。
そこで本研究では,MARIDAデータセットの性能評価により,スペクトルベースソリューションの評価を提案する。
論文 参考訳(メタデータ) (2024-08-19T17:47:22Z) - Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Quality Assurance of A GPT-based Sentiment Analysis System: Adversarial
Review Data Generation and Detection [10.567108680774782]
GPTに基づく感情分析モデルが最初に構築され、AI品質分析の基準として研究されている。
データ品質に関する品質分析は、コンテンツベースのアプローチを用いて、合理的な敵のレビューコメントを生成することを含む、実施される。
Amazon.comのレビューデータと微調整のGPTモデルに基づく実験が実施された。
論文 参考訳(メタデータ) (2023-10-09T00:01:05Z) - One-Shot Learning for Periocular Recognition: Exploring the Effect of
Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。
我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。
SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文 参考訳(メタデータ) (2023-07-11T09:10:16Z) - Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark [0.13764085113103217]
同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。