論文の概要: Revisiting Active Learning in the Era of Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2401.14555v1
- Date: Thu, 25 Jan 2024 22:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:26:17.574399
- Title: Revisiting Active Learning in the Era of Vision Foundation Models
- Title(参考訳): 視覚基礎モデル時代におけるアクティブラーニングの再検討
- Authors: Sanket Rajan Gupte, Josiah Aklilu, Jeffrey J. Nirschl, Serena
Yeung-Levy
- Abstract要約: ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルなしまたはノイズの多いデータに基づいて訓練される。
本研究では,基礎モデルの頑健な表現が,アクティブラーニングにおける既存の知見にどのように挑戦するかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation vision or vision-language models are trained on large unlabeled or
noisy data and learn robust representations that can achieve impressive zero-
or few-shot performance on diverse tasks. Given these properties, they are a
natural fit for active learning (AL), which aims to maximize labeling
efficiency, but the full potential of foundation models has not been explored
in the context of AL, specifically in the low-budget regime. In this work, we
evaluate how foundation models influence three critical components of effective
AL, namely, 1) initial labeled pool selection, 2) ensuring diverse sampling,
and 3) the trade-off between representative and uncertainty sampling. We
systematically study how the robust representations of foundation models
(DINOv2, OpenCLIP) challenge existing findings in active learning. Our
observations inform the principled construction of a new simple and elegant AL
strategy that balances uncertainty estimated via dropout with sample diversity.
We extensively test our strategy on many challenging image classification
benchmarks, including natural images as well as out-of-domain biomedical images
that are relatively understudied in the AL literature. Source code will be made
available.
- Abstract(参考訳): ファンデーションビジョンまたはビジョン言語モデルは、大きなラベル付きまたはノイズの多いデータに基づいてトレーニングされ、多様なタスクで印象的なゼロショットまたは数ショットのパフォーマンスを達成できる堅牢な表現を学ぶ。
これらの性質を考えると、それらはラベリング効率を最大化することを目的としたアクティブラーニング(al)に自然に適合するが、基礎モデルの完全なポテンシャルはalの文脈、特に低予算体制では研究されていない。
本研究では,基礎モデルが有効ALの3つの重要な構成要素,すなわち,どのように影響するかを評価する。
1)初期ラベル付きプール選択,
2)多様なサンプリングの確保、及び
3)代表者と不確実性サンプリングのトレードオフ
基礎モデルの頑健な表現(DINOv2, OpenCLIP)が、アクティブラーニングにおける既存の知見にどのように挑戦するかを体系的に研究する。
本研究は,サンプルの多様性とドロップアウトによって推定される不確実性をバランスさせる,単純でエレガントなAL戦略の原則構築について報告する。
自然画像や,al文献において比較的未熟な領域外生物医学的画像など,多くの難解な画像分類ベンチマークにおいて,この戦略を広範囲に検証した。
ソースコードは利用可能になる。
関連論文リスト
- Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation [18.768030475943213]
マルチビュー環境での3次元ポーズ推定問題に対するアクティブラーニングの改良を行った。
既存の単一ビューAL戦略を効率的に拡張できるフレームワークを開発する。
我々は,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。
論文 参考訳(メタデータ) (2021-12-27T14:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。