論文の概要: Cooperative learning of Pl@ntNet's Artificial Intelligence algorithm: how does it work and how can we improve it?
- arxiv url: http://arxiv.org/abs/2406.03356v1
- Date: Wed, 5 Jun 2024 15:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:41:32.786558
- Title: Cooperative learning of Pl@ntNet's Artificial Intelligence algorithm: how does it work and how can we improve it?
- Title(参考訳): Pl@ntNetの人工知能アルゴリズムの協調学習:どのように機能し、どのように改善できるのか?
- Authors: Tanguy Lefort, Antoine Affouard, Benjamin Charlier, Jean-Christophe Lombardo, Mathias Chouet, Hervé Goëau, Joseph Salmon, Pierre Bonnet, Alexis Joly,
- Abstract要約: PlantNetは、植物観察をアップロードし、注釈付けすることで、グローバルなデータ収集を可能にする。
合意を得ることはトレーニングには不可欠だが、収集された膨大なデータによって、従来のラベルアグリゲーション戦略が困難になる。
当社の戦略は,クラウドソースデータから植物種を識別する能力に基づいて,ユーザ毎の信頼スコアとしてユーザ専門性を推定する。
ユーザの知識の多様性に基づいて,ユーザのスキルを推定することで,ラベル付け性能が向上することが実証された。
- 参考スコア(独自算出の注目度): 10.552000450161698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models for plant species identification rely on large annotated datasets. The PlantNet system enables global data collection by allowing users to upload and annotate plant observations, leading to noisy labels due to diverse user skills. Achieving consensus is crucial for training, but the vast scale of collected data makes traditional label aggregation strategies challenging. Existing methods either retain all observations, resulting in noisy training data or selectively keep those with sufficient votes, discarding valuable information. Additionally, as many species are rarely observed, user expertise can not be evaluated as an inter-user agreement: otherwise, botanical experts would have a lower weight in the AI training step than the average user. Our proposed label aggregation strategy aims to cooperatively train plant identification AI models. This strategy estimates user expertise as a trust score per user based on their ability to identify plant species from crowdsourced data. The trust score is recursively estimated from correctly identified species given the current estimated labels. This interpretable score exploits botanical experts' knowledge and the heterogeneity of users. Subsequently, our strategy removes unreliable observations but retains those with limited trusted annotations, unlike other approaches. We evaluate PlantNet's strategy on a released large subset of the PlantNet database focused on European flora, comprising over 6M observations and 800K users. We demonstrate that estimating users' skills based on the diversity of their expertise enhances labeling performance. Our findings emphasize the synergy of human annotation and data filtering in improving AI performance for a refined dataset. We explore incorporating AI-based votes alongside human input. This can further enhance human-AI interactions to detect unreliable observations.
- Abstract(参考訳): 植物種同定のためのディープラーニングモデルは、大きな注釈付きデータセットに依存している。
PlantNetシステムは,植物観察をアップロードし,注釈を付けることで,グローバルなデータ収集を可能にする。
合意を得ることはトレーニングには不可欠だが、収集された膨大なデータによって、従来のラベルアグリゲーション戦略が困難になる。
既存の方法は、すべての観察を保ち、ノイズの多いトレーニングデータをもたらすか、あるいは十分な投票でそれを選択的に保持し、貴重な情報を捨てる。
さらに、多くの種がほとんど観察されないため、ユーザ間の合意としてユーザ専門性を評価することはできない。
提案するラベルアグリゲーション戦略は,植物識別AIモデルを協調的に訓練することを目的としている。
この戦略は、クラウドソースデータから植物種を特定する能力に基づいて、ユーザ毎の信頼スコアとしてユーザ専門性を推定する。
信頼スコアは、現在の推定ラベルから正しく同定された種から再帰的に推定される。
この解釈可能なスコアは、植物の専門家の知識とユーザの異質性を利用する。
その後、我々の戦略は信頼性の低い観察を排除しますが、他のアプローチとは異なり、信頼できるアノテーションしか持たないものを保持します。
欧州の植物相に着目したPlanetNetデータベースの大規模サブセット上でのPlantNetの戦略を評価する。
ユーザの知識の多様性に基づいて,ユーザのスキルを推定することで,ラベル付け性能が向上することが実証された。
我々の研究は、洗練されたデータセットのAI性能を向上させるために、人間のアノテーションとデータフィルタリングの相乗効果を強調した。
人間の入力と並行してAIベースの投票を取り入れることについて検討する。
これにより、人間とAIの相互作用をさらに強化し、信頼性の低い観測を検出することができる。
関連論文リスト
- SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - ACTOR: Active Learning with Annotator-specific Classification Heads to
Embrace Human Label Variation [35.10805667891489]
積極的学習は、アノテーションのコスト削減戦略として、不一致から学ぶという文脈で完全には研究されていない。
アクティブな学習環境では、不確実性推定の観点から、マルチヘッドモデルの方がシングルヘッドモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-23T14:26:43Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。