論文の概要: Revisiting Active Learning in the Era of Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2401.14555v2
- Date: Tue, 25 Jun 2024 02:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 20:40:18.161676
- Title: Revisiting Active Learning in the Era of Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルにおけるアクティブラーニングの再考
- Authors: Sanket Rajan Gupte, Josiah Aklilu, Jeffrey J. Nirschl, Serena Yeung-Levy,
- Abstract要約: ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルなしまたはノイズの多いデータに基づいて訓練される。
これらは、ラベル付け効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。
基礎モデルが有効ALの3つの重要な構成要素にどのように影響するかを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation vision or vision-language models are trained on large unlabeled or noisy data and learn robust representations that can achieve impressive zero- or few-shot performance on diverse tasks. Given these properties, they are a natural fit for active learning (AL), which aims to maximize labeling efficiency. However, the full potential of foundation models has not been explored in the context of AL, specifically in the low-budget regime. In this work, we evaluate how foundation models influence three critical components of effective AL, namely, 1) initial labeled pool selection, 2) ensuring diverse sampling, and 3) the trade-off between representative and uncertainty sampling. We systematically study how the robust representations of foundation models (DINOv2, OpenCLIP) challenge existing findings in active learning. Our observations inform the principled construction of a new simple and elegant AL strategy that balances uncertainty estimated via dropout with sample diversity. We extensively test our strategy on many challenging image classification benchmarks, including natural images as well as out-of-domain biomedical images that are relatively understudied in the AL literature. We also provide a highly performant and efficient implementation of modern AL strategies (including our method) at https://github.com/sanketx/AL-foundation-models.
- Abstract(参考訳): ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルのない、またはノイズの多いデータに基づいてトレーニングされ、多様なタスクで印象的なゼロショットまたは少数ショットのパフォーマンスを達成する堅牢な表現を学ぶ。
これらの特性を考慮すると、ラベリング効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。
しかし、ファンデーションモデルの可能性は、ALの文脈、特に低予算体制では検討されていない。
本研究では,基礎モデルが有効ALの3つの重要な構成要素,すなわち,どのように影響するかを評価する。
1)初期ラベル付きプール選択
2【多様なサンプリングの確保】
3)代表者と不確実性サンプリングのトレードオフ
基礎モデルの頑健な表現(DINOv2, OpenCLIP)が、アクティブラーニングにおける既存の知見にどのように挑戦するかを体系的に研究する。
本研究は,サンプルの多様性とドロップアウトによって推定される不確実性をバランスさせる,単純でエレガントなAL戦略の原則構築について報告する。
我々は、自然画像や、AL文献で比較的研究されている領域外バイオメディカル画像を含む、多くの挑戦的な画像分類ベンチマークにおいて、我々の戦略を広範囲に検証した。
我々はまた、 https://github.com/sanketx/AL-foundation-modelsにおいて、現代のAL戦略(私たちのメソッドを含む)の高性能かつ効率的な実装を提供する。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Active Prompt Learning in Vision Language Models [21.276006224504748]
我々は,PCBと表記される事前学習型視覚言語モデルのための新しいアクティブラーニングフレームワークを考案した。
そこで本研究では,7つの実世界のデータセットを用いて実験を行い,PCBが従来の能動的学習法やランダムサンプリング法を超えることを示した。
論文 参考訳(メタデータ) (2023-11-18T22:42:16Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation [18.768030475943213]
マルチビュー環境での3次元ポーズ推定問題に対するアクティブラーニングの改良を行った。
既存の単一ビューAL戦略を効率的に拡張できるフレームワークを開発する。
我々は,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。
論文 参考訳(メタデータ) (2021-12-27T14:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。