論文の概要: Vendi Information Gain for Active Learning and its Application to Ecology
- arxiv url: http://arxiv.org/abs/2509.10390v2
- Date: Mon, 15 Sep 2025 14:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:48.001403
- Title: Vendi Information Gain for Active Learning and its Application to Ecology
- Title(参考訳): アクティブラーニングのためのヴェンディ情報ゲインとその生態学への応用
- Authors: Quan Nguyen, Adji Bousso Dieng,
- Abstract要約: 我々は,データセット全体の予測の不確実性に対する影響に基づいて画像を選択する,新たなアクティブな学習ポリシーであるVendi Information gain(VIG)を導入する。
10%のデータで、VIGは88%の予測精度を達成し、ベースラインの上位よりも12%高い。
VIGは生態学を超える適用性を有しており,本研究の結果は,データ制限環境における生物多様性モニタリングの価値を強調している。
- 参考スコア(独自算出の注目度): 12.642449671620938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While monitoring biodiversity through camera traps has become an important endeavor for ecological research, identifying species in the captured image data remains a major bottleneck due to limited labeling resources. Active learning -- a machine learning paradigm that selects the most informative data to label and train a predictive model -- offers a promising solution, but typically focuses on uncertainty in the individual predictions without considering uncertainty across the entire dataset. We introduce a new active learning policy, Vendi information gain (VIG), that selects images based on their impact on dataset-wide prediction uncertainty, capturing both informativeness and diversity. We applied VIG to the Snapshot Serengeti dataset and compared it against common active learning methods. VIG needs only 3% of the available data to reach 75\% accuracy, a level that baselines require more than 10% of the data to achieve. With 10% of the data, VIG attains 88\% predictive accuracy, 12% higher than the best of the baselines. This improvement in performance is consistent across metrics and batch sizes, and we show that VIG also collects more diverse data in the feature space. VIG has broad applicability beyond ecology, and our results highlight its value for biodiversity monitoring in data-limited environments.
- Abstract(参考訳): カメラトラップによる生物多様性のモニタリングは生態学的研究において重要な取り組みとなっているが、キャプチャーされた画像データの種を特定することは、限られたラベル付け資源のために大きなボトルネックとなっている。
予測モデルのラベル付けとトレーニングに最も有用なデータを選択する機械学習パラダイムである、アクティブラーニング(Active Learning)は、有望なソリューションを提供するが、一般的にはデータセット全体の不確実性を考慮せずに、個々の予測の不確実性に焦点を当てる。
本稿では,Vendi Information gain (VIG) という新たなアクティブラーニングポリシーを導入し,データセット全体の予測の不確実性に対する影響に基づいて画像を選択する。
我々は、Snapshot SerengetiデータセットにVIGを適用し、一般的なアクティブラーニング手法と比較した。
VIGは75\%の精度に達するのに利用可能なデータの3%しか必要としない。
データの10%で、VIGは88\%の予測精度を獲得し、ベースラインの最高値よりも12%高い。
このパフォーマンスの改善は、メトリクスとバッチサイズで一貫したものであり、VIGが機能領域でより多様なデータを集めることも示しています。
VIGは生態学を超える適用性を有しており,本研究の結果は,データ制限環境における生物多様性モニタリングの価値を強調している。
関連論文リスト
- FrogDeepSDM: Improving Frog Counting and Occurrence Prediction Using Multimodal Data and Pseudo-Absence Imputation [0.9537146822132906]
種分布モデル (SDM) は、広範囲にわたる種の存在を予測するのに役立つ。
本研究では,深層学習とデータ計算技術を適用して,カエル(Anura)のSDM精度を向上させる。
実験の結果、データバランスはモデル性能を大幅に改善し、カエルカウントタスクにおいて平均絶対誤差(MAE)が189から29に削減された。
論文 参考訳(メタデータ) (2025-10-22T07:09:36Z) - Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - DISCOVER: Data-driven Identification of Sub-activities via Clustering and Visualization for Enhanced Activity Recognition in Smart Homes [52.09869569068291]
本研究では,未ラベルセンサデータから詳細な人間のサブアクティビティを検出する手法であるdiscoVERについて,事前のセグメンテーションに頼ることなく紹介する。
広範に使用されているHARデータセットに対する再注釈演習を通じて,その効果を実証する。
論文 参考訳(メタデータ) (2025-02-11T20:02:24Z) - AI-Driven Real-Time Monitoring of Ground-Nesting Birds: A Case Study on Curlew Detection Using YOLOv10 [0.07255608805275862]
本研究は,カリュー(Numenius arquata)に着目したAIによるリアルタイム種検出手法を提案する。
カスタムトレーニングされたYOLOv10モデルは、Create AIプラットフォームにリンクされた3/4G対応カメラを使用して、カリューとそのニワトリを検知し、分類するために開発された。
ウェールズの11箇所で、このモデルは高い性能を達成し、感度は90.56%、特異度は100%、F1スコアは95.05%だった。
論文 参考訳(メタデータ) (2024-11-22T10:36:29Z) - DivShift: Exploring Domain-Specific Distribution Shifts in Large-Scale, Volunteer-Collected Biodiversity Datasets [0.0]
iNaturalistのような、コミュニティが特定した自然界の画像の大規模でボランティアが収集したデータセットは、機械学習手法を用いて種をきめ細かな視覚的分類するために、顕著なパフォーマンス向上を実現している。
ここでは、ドメイン固有の分散シフトが機械学習モデルの性能に与える影響を定量化するフレームワークであるDiversity Shiftを紹介する。
また、ボランティアが収集した生物多様性データに特有のバイアスの効果を診断するために、北米西海岸の約750万枚のiNaturalist画像のキュレートされたデータセットであるDivShift-North American West Coast (DivShift-NAWC)を紹介した。
論文 参考訳(メタデータ) (2024-10-17T23:56:30Z) - Enhancing Ecological Monitoring with Multi-Objective Optimization: A Novel Dataset and Methodology for Segmentation Algorithms [17.802456388479616]
オーストラリア, ニューサウスウェールズ州ベガバレーで, 外来種および外来種を捉えた6,096個の高分解能空中画像のユニークなセマンティックセマンティックセマンティクスデータセットを導入した。
このデータセットは、草種の重複と分布のため、困難な課題を示す。
データセットとコードは公開され、コンピュータビジョン、機械学習、生態学の研究を促進することを目的としている。
論文 参考訳(メタデータ) (2024-07-25T18:27:27Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Information Gain Sampling for Active Learning in Medical Image
Classification [3.1619162190378787]
本研究は,ラベル付け対象プールからの最適な画像選択を誘導する情報理論のアクティブラーニングフレームワークを提案する。
2つの異なる医用画像分類データセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-01T16:25:53Z) - Ensembles of Vision Transformers as a New Paradigm for Automated
Classification in Ecology [0.0]
データ効率のよい画像変換器(DeiTs)のアンサンブルが従来のSOTA(SOTA)よりも大幅に優れていたことを示す。
テストしたすべてのデータセットに対して、新しいSOTAを実現し、以前のSOTAの18.48%から87.50%の誤差を削減した。
論文 参考訳(メタデータ) (2022-03-03T14:16:22Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。