論文の概要: Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model
- arxiv url: http://arxiv.org/abs/2408.04917v2
- Date: Sun, 13 Apr 2025 07:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 13:16:58.167399
- Title: Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model
- Title(参考訳): 事前学習型視覚言語モデルを用いたオープンセット能動学習における無駄なアノテーションコスト回避
- Authors: Jaehyuk Heo, Pilsung Kang,
- Abstract要約: アクティブラーニング(AL)は、高情報データを選択的に収集することでモデル性能を向上させることを目的としている。
実践的なシナリオでは、ラベルのないデータには、トレーニングに使用されていない配布外サンプル(OOD)が含まれる可能性がある。
我々は,OOD サンプルへの依存を低減しつつ,コストロスを最小限に抑える新しいクエリ戦略 VLPure-AL を提案する。
- 参考スコア(独自算出の注目度): 3.647905567437244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Active learning (AL) aims to enhance model performance by selectively collecting highly informative data, thereby minimizing annotation costs. However, in practical scenarios, unlabeled data may contain out-of-distribution (OOD) samples, which are not used for training, leading to wasted annotation costs if data is incorrectly selected. Therefore, to make active learning feasible in real-world applications, it is crucial to consider not only the informativeness of unlabeled samples but also their purity to determine whether they belong to the in-distribution (ID). Recent studies have applied AL under these assumptions, but challenges remain due to the trade-off between informativeness and purity, as well as the heavy dependence on OOD samples. These issues lead to the collection of OOD samples, resulting in a significant waste of annotation costs. To address these challenges, we propose a novel query strategy, VLPure-AL, which minimizes cost losses while reducing dependence on OOD samples. VLPure-AL sequentially evaluates the purity and informativeness of data. First, it utilizes a pre-trained vision-language model to detect and exclude OOD data with high accuracy by leveraging linguistic and visual information of ID data. Second, it selects highly informative data from the remaining ID data, and then the selected samples are annotated by human experts. Experimental results on datasets with various open-set conditions demonstrate that VLPure-AL achieves the lowest cost loss and highest performance across all scenarios. Code is available at https://github.com/DSBA-Lab/OpenAL.
- Abstract(参考訳): アクティブラーニング(AL)は、高情報データを選択的に収集し、アノテーションコストを最小化することで、モデル性能を向上させることを目的としている。
しかし、実際のシナリオでは、ラベル付けされていないデータには、トレーニングに使われていないアウト・オブ・ディストリビューション(OOD)サンプルが含まれている可能性があるため、データが誤って選択された場合、アノテーションの無駄なコストが発生する。
したがって, 実世界の応用において活発な学習を実現するためには, 未ラベル標本の知能度だけでなく, その純度も考慮し, イン・ディストリビューション(ID)に属するかどうかを判断することが重要である。
最近の研究はALをこれらの仮定で適用しているが、情報化と純度とのトレードオフやOODサンプルへの強い依存による課題が残っている。
これらの問題はOODサンプルの収集につながります。
これらの課題に対処するため,OOD サンプルへの依存を低減しつつコスト損失を最小限に抑える新しいクエリ戦略 VLPure-AL を提案する。
VLPure-ALはデータの純度と情報度を順次評価する。
まず,事前学習した視覚言語モデルを用いて,IDデータの言語的・視覚的情報を活用することにより,OODデータを高精度に検出・排除する。
第二に、残りのIDデータから高度に情報的データを抽出し、選択したサンプルを人間の専門家によって注釈付けする。
様々なオープンセット条件のデータセットに対する実験結果は、VLPure-ALがすべてのシナリオで最小のコスト損失と最高パフォーマンスを達成することを示した。
コードはhttps://github.com/DSBA-Lab/OpenAL.comで入手できる。
関連論文リスト
- CHASe: Client Heterogeneity-Aware Data Selection for Effective Federated Active Learning [22.38403602956309]
フェデレートアクティブラーニング(FAL)に特化して設計されたCHASe (Client Heterogeneity-Aware Data Selection)を提案する。
CHASeは、トレーニング中の意思決定の境界を揺らぎながら、高い疫学変化(EV)を持つラベルのないサンプルを特定することに重点を置いている。
実験により、CHASeは、さまざまなデータセット、モデル複雑度、異種フェデレーション設定にまたがって検証される、有効性と効率の観点から、確立されたさまざまなベースラインを超えることが示されている。
論文 参考訳(メタデータ) (2025-04-24T11:28:00Z) - Compute-Constrained Data Selection [77.06528009072967]
コスト対応ユーティリティ関数を用いてデータ選択の問題を定式化し、その問題をトレーニングのための初期選択コストのトレーディングとしてモデル化する。
複数のタスク、微調整トークンのスケーリングによる計算予算、モデルサイズ、データ選択計算など、包括的な実験を網羅的に実施しています。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - DRUPI: Dataset Reduction Using Privileged Information [20.59889438709671]
データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留する。
本稿では,DRUPI(Privleged Information)を用いたデータセットリダクションについて紹介する。
我々の研究結果によると、効果的な特徴ラベルは過度に差別的かつ過度に多様性があり、中程度のレベルがデータセットの有効性を改善するのに最適であることが判明した。
論文 参考訳(メタデータ) (2024-10-02T14:49:05Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Training OOD Detectors in their Natural Habitats [31.565635192716712]
アウト・オブ・ディストリビューション(OOD)検出は、野生にデプロイされた機械学習モデルにとって重要である。
近年の手法では,OOD検出の改善のために補助外乱データを用いてモデルを正規化している。
我々は、自然にIDとOODの両方のサンプルで構成される野生の混合データを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T15:38:39Z) - Semi-Supervised Active Learning with Temporal Output Discrepancy [42.01906895756629]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-07-29T16:25:56Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。