論文の概要: Vendi Information Gain for Active Learning and its Application to Ecology
- arxiv url: http://arxiv.org/abs/2509.10390v3
- Date: Tue, 16 Sep 2025 12:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:33.072188
- Title: Vendi Information Gain for Active Learning and its Application to Ecology
- Title(参考訳): アクティブラーニングのためのヴェンディ情報ゲインとその生態学への応用
- Authors: Quan Nguyen, Adji Bousso Dieng,
- Abstract要約: 我々は,データセット全体の予測の不確実性に対する影響に基づいて画像を選択する,新たなアクティブな学習ポリシーであるVendi Information gain(VIG)を導入する。
データの10%で、VIGは予測精度に達し、ベースラインの上位よりも88%高い。
VIGは生態学を超える適用性を有しており,本研究の結果は,データ制限環境における生物多様性モニタリングの価値を強調している。
- 参考スコア(独自算出の注目度): 12.642449671620938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While monitoring biodiversity through camera traps has become an important endeavor for ecological research, identifying species in the captured image data remains a major bottleneck due to limited labeling resources. Active learning -- a machine learning paradigm that selects the most informative data to label and train a predictive model -- offers a promising solution, but typically focuses on uncertainty in the individual predictions without considering uncertainty across the entire dataset. We introduce a new active learning policy, Vendi information gain (VIG), that selects images based on their impact on dataset-wide prediction uncertainty, capturing both informativeness and diversity. We applied VIG to the Snapshot Serengeti dataset and compared it against common active learning methods. VIG needs only 3% of the available data to reach 75% accuracy, a level that baselines require more than 10% of the data to achieve. With 10% of the data, VIG attains 88% predictive accuracy, 12% higher than the best of the baselines. This improvement in performance is consistent across metrics and batch sizes, and we show that VIG also collects more diverse data in the feature space. VIG has broad applicability beyond ecology, and our results highlight its value for biodiversity monitoring in data-limited environments.
- Abstract(参考訳): カメラトラップによる生物多様性のモニタリングは生態学的研究において重要な取り組みとなっているが、キャプチャーされた画像データの種を特定することは、限られたラベル付け資源のために大きなボトルネックとなっている。
予測モデルのラベル付けとトレーニングに最も有用なデータを選択する機械学習パラダイムである、アクティブラーニング(Active Learning)は、有望なソリューションを提供するが、一般的にはデータセット全体の不確実性を考慮せずに、個々の予測の不確実性に焦点を当てる。
本稿では,Vendi Information gain (VIG) という新たなアクティブラーニングポリシーを導入し,データセット全体の予測の不確実性に対する影響に基づいて画像を選択する。
我々は、Snapshot SerengetiデータセットにVIGを適用し、一般的なアクティブラーニング手法と比較した。
VIGは75%の精度に達するのに利用可能なデータの3%しか必要としない。
10%のデータで、VIGは88%の予測精度を達成し、ベースラインの上位よりも12%高い。
このパフォーマンスの改善は、メトリクスとバッチサイズで一貫したものであり、VIGが機能領域でより多様なデータを集めることも示しています。
VIGは生態学を超える適用性を有しており,本研究の結果は,データ制限環境における生物多様性モニタリングの価値を強調している。
関連論文リスト
- DISCOVER: Data-driven Identification of Sub-activities via Clustering and Visualization for Enhanced Activity Recognition in Smart Homes [52.09869569068291]
本研究では,未ラベルセンサデータから詳細な人間のサブアクティビティを検出する手法であるdiscoVERについて,事前のセグメンテーションに頼ることなく紹介する。
広範に使用されているHARデータセットに対する再注釈演習を通じて,その効果を実証する。
論文 参考訳(メタデータ) (2025-02-11T20:02:24Z) - DivShift: Exploring Domain-Specific Distribution Shifts in Large-Scale, Volunteer-Collected Biodiversity Datasets [0.0]
iNaturalistのような、コミュニティが特定した自然界の画像の大規模でボランティアが収集したデータセットは、機械学習手法を用いて種をきめ細かな視覚的分類するために、顕著なパフォーマンス向上を実現している。
ここでは、ドメイン固有の分散シフトが機械学習モデルの性能に与える影響を定量化するフレームワークであるDiversity Shiftを紹介する。
また、ボランティアが収集した生物多様性データに特有のバイアスの効果を診断するために、北米西海岸の約750万枚のiNaturalist画像のキュレートされたデータセットであるDivShift-North American West Coast (DivShift-NAWC)を紹介した。
論文 参考訳(メタデータ) (2024-10-17T23:56:30Z) - Enhancing Ecological Monitoring with Multi-Objective Optimization: A Novel Dataset and Methodology for Segmentation Algorithms [17.802456388479616]
オーストラリア, ニューサウスウェールズ州ベガバレーで, 外来種および外来種を捉えた6,096個の高分解能空中画像のユニークなセマンティックセマンティックセマンティクスデータセットを導入した。
このデータセットは、草種の重複と分布のため、困難な課題を示す。
データセットとコードは公開され、コンピュータビジョン、機械学習、生態学の研究を促進することを目的としている。
論文 参考訳(メタデータ) (2024-07-25T18:27:27Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Information Gain Sampling for Active Learning in Medical Image
Classification [3.1619162190378787]
本研究は,ラベル付け対象プールからの最適な画像選択を誘導する情報理論のアクティブラーニングフレームワークを提案する。
2つの異なる医用画像分類データセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-01T16:25:53Z) - Ensembles of Vision Transformers as a New Paradigm for Automated
Classification in Ecology [0.0]
データ効率のよい画像変換器(DeiTs)のアンサンブルが従来のSOTA(SOTA)よりも大幅に優れていたことを示す。
テストしたすべてのデータセットに対して、新しいSOTAを実現し、以前のSOTAの18.48%から87.50%の誤差を削減した。
論文 参考訳(メタデータ) (2022-03-03T14:16:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。