論文の概要: Ocean Data Quality Assessment through Outlier Detection-enhanced Active
Learning
- arxiv url: http://arxiv.org/abs/2312.10817v1
- Date: Sun, 17 Dec 2023 20:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:20:24.263587
- Title: Ocean Data Quality Assessment through Outlier Detection-enhanced Active
Learning
- Title(参考訳): Outlier Detection-enhanced Active Learningによる海洋データ品質評価
- Authors: Na Li, Yiyang Qi, Ruyue Xin, Zhiming Zhao
- Abstract要約: 海洋プロファイリングに特化したArgoネットワークは、膨大な量の観測データを生成する。
機械学習を含む既存の方法は、ラベル付きデータの不均衡なデータセットによって不足する。
ALを用いた海洋データ品質評価のためのOフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.274369283265131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ocean and climate research benefits from global ocean observation initiatives
such as Argo, GLOSS, and EMSO. The Argo network, dedicated to ocean profiling,
generates a vast volume of observatory data. However, data quality issues from
sensor malfunctions and transmission errors necessitate stringent quality
assessment. Existing methods, including machine learning, fall short due to
limited labeled data and imbalanced datasets. To address these challenges, we
propose an ODEAL framework for ocean data quality assessment, employing AL to
reduce human experts' workload in the quality assessment workflow and
leveraging outlier detection algorithms for effective model initialization. We
also conduct extensive experiments on five large-scale realistic Argo datasets
to gain insights into our proposed method, including the effectiveness of AL
query strategies and the initial set construction approach. The results suggest
that our framework enhances quality assessment efficiency by up to 465.5% with
the uncertainty-based query strategy compared to random sampling and minimizes
overall annotation costs by up to 76.9% using the initial set built with
outlier detectors.
- Abstract(参考訳): 海洋と気候の研究は、アルゴ、グロス、エムソなどの地球規模の海洋観測イニシアチブから恩恵を受けている。
海洋プロファイリングに特化したArgoネットワークは、膨大な量の観測データを生成する。
しかし、センサの誤動作や伝送エラーによるデータ品質問題は、厳密な品質評価を必要とする。
機械学習を含む既存の方法は、ラベル付きデータと不均衡データセットによって不足している。
そこで本研究では,海洋データ品質評価のためのodealフレームワークを提案し,alを用いて品質評価ワークフローにおける人間専門家の作業負荷を削減するとともに,異常検出アルゴリズムを有効モデル初期化に活用する。
また,alクエリ戦略の有効性や初期セット構築手法など,提案手法に対する洞察を得るために,5つの大規模argoデータセットについて広範な実験を行った。
その結果,不確実性に基づく問合せ戦略により,本フレームワークは品質評価効率を最大465.5%向上し,外乱検出器で構築した初期セットを用いて全体のアノテーションコストを最大76.9%削減できることがわかった。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Mitigating Reward Hacking via Information-Theoretic Reward Modeling [70.26019860948114]
本稿では,報酬モデリングのための汎用的で堅牢なフレームワークであるInfoRMを提案する。
我々は,潜伏空間における過最適化と外れ値の相関を同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Air Quality Forecasting Using Machine Learning: A Global perspective
with Relevance to Low-Resource Settings [0.0]
大気汚染は世界第4位の死因である。
本研究では,2ヶ月の空気質データを用いた高精度な空気質予測のための新しい機械学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T05:52:02Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Quality Assurance of A GPT-based Sentiment Analysis System: Adversarial
Review Data Generation and Detection [10.567108680774782]
GPTに基づく感情分析モデルが最初に構築され、AI品質分析の基準として研究されている。
データ品質に関する品質分析は、コンテンツベースのアプローチを用いて、合理的な敵のレビューコメントを生成することを含む、実施される。
Amazon.comのレビューデータと微調整のGPTモデルに基づく実験が実施された。
論文 参考訳(メタデータ) (2023-10-09T00:01:05Z) - One-Shot Learning for Periocular Recognition: Exploring the Effect of
Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。
我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。
SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文 参考訳(メタデータ) (2023-07-11T09:10:16Z) - Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark [0.13764085113103217]
同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - On the Limitations of Simulating Active Learning [32.34440406689871]
アクティブラーニング(アクティブラーニング、英: Active Learning、AL)は、人間のアノテーションのための情報的未ラベルデータを反復的に選択する、ヒューマン・アンド・モデル・イン・ザ・ループのパラダイムである。
この障害に対する簡単な修正は、ラベル付きで公開されているデータセットをラベルなしデータのプールとして扱うことで、ALをシミュレートすることだ。
我々は、利用可能なラベル付きデータセット上でのALアルゴリズムの評価は、実データにおけるそれらの有効性に対して低いバウンドを与えるかもしれないと論じる。
論文 参考訳(メタデータ) (2023-05-21T22:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。