論文の概要: Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model
- arxiv url: http://arxiv.org/abs/2408.04917v1
- Date: Fri, 9 Aug 2024 07:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:18:44.212822
- Title: Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model
- Title(参考訳): 事前学習型視覚言語モデルを用いたオープンセット能動学習における無駄なアノテーションコスト回避
- Authors: Jaehyuk Heo, Pilsung Kang,
- Abstract要約: アクティブラーニング(AL)は、高情報データを選択的に収集することでモデル性能を向上させることを目的としている。
実際のシナリオでは、ラベルなしデータは配布外サンプル(OOD)を含んでいて、無駄なアノテーションコストにつながる可能性がある。
OODサンプルを必要とせずにコスト損失を最小限に抑える新しい選択戦略であるCLIPNALを提案する。
- 参考スコア(独自算出の注目度): 3.647905567437244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Active learning (AL) aims to enhance model performance by selectively collecting highly informative data, thereby minimizing annotation costs. However, in practical scenarios, unlabeled data may contain out-of-distribution (OOD) samples, leading to wasted annotation costs if data is incorrectly selected. Recent research has explored methods to apply AL to open-set data, but these methods often require or incur unavoidable cost losses to minimize them. To address these challenges, we propose a novel selection strategy, CLIPN for AL (CLIPNAL), which minimizes cost losses without requiring OOD samples. CLIPNAL sequentially evaluates the purity and informativeness of data. First, it utilizes a pre-trained vision-language model to detect and exclude OOD data by leveraging linguistic and visual information of in-distribution (ID) data without additional training. Second, it selects highly informative data from the remaining ID data, and then the selected samples are annotated by human experts. Experimental results on datasets with various open-set conditions demonstrate that CLIPNAL achieves the lowest cost loss and highest performance across all scenarios. Code is available at https://github.com/DSBA-Lab/OpenAL.
- Abstract(参考訳): アクティブラーニング(AL)は、高情報データを選択的に収集し、アノテーションコストを最小化することで、モデル性能を向上させることを目的としている。
しかし、実際のシナリオでは、ラベルなしデータは配布外サンプル(OOD)を含んでいる可能性があるため、データが誤って選択された場合、アノテーションの無駄なコストが発生する。
近年、ALをオープンセットデータに適用するための手法が研究されているが、これらの手法は最小化するためにしばしば避けられないコストロスを必要とする。
これらの課題に対処するために、OODサンプルを必要とせずにコスト損失を最小限に抑える新しい選択戦略、CLIPNALを提案する。
CLIPNALはデータの純度と情報度を順次評価する。
まず、事前学習された視覚言語モデルを用いて、追加の訓練をすることなく、ID(In-distriion)データの言語的および視覚的情報を活用することで、OODデータを検出および排除する。
第二に、残りのIDデータから高度に情報的データを抽出し、選択したサンプルを人間の専門家によって注釈付けする。
様々なオープンセット条件のデータセットに対する実験結果から、CLIPNALはすべてのシナリオで最小のコスト損失と最高パフォーマンスを達成することが示された。
コードはhttps://github.com/DSBA-Lab/OpenAL.comで入手できる。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
コスト対応ユーティリティ関数を用いてデータ選択の問題を定式化し、その問題をトレーニングのための初期選択コストのトレーディングとしてモデル化する。
複数のタスク、微調整トークンのスケーリングによる計算予算、モデルサイズ、データ選択計算など、包括的な実験を網羅的に実施しています。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - DRUPI: Dataset Reduction Using Privileged Information [20.59889438709671]
データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留する。
本稿では,DRUPI(Privleged Information)を用いたデータセットリダクションについて紹介する。
我々の研究結果によると、効果的な特徴ラベルは過度に差別的かつ過度に多様性があり、中程度のレベルがデータセットの有効性を改善するのに最適であることが判明した。
論文 参考訳(メタデータ) (2024-10-02T14:49:05Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Semi-Supervised Active Learning with Temporal Output Discrepancy [42.01906895756629]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-07-29T16:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。