Fugu-MT 論文翻訳(概要): Revisiting Active Learning in the Era of Vision Foundation Models

論文の概要: Revisiting Active Learning in the Era of Vision Foundation Models

arxiv url: http://arxiv.org/abs/2401.14555v2
Date: Tue, 25 Jun 2024 02:43:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 20:40:18.161676
Title: Revisiting Active Learning in the Era of Vision Foundation Models
Title（参考訳）: ビジョンファウンデーションモデルにおけるアクティブラーニングの再考
Authors: Sanket Rajan Gupte, Josiah Aklilu, Jeffrey J. Nirschl, Serena Yeung-Levy,
Abstract要約: ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルなしまたはノイズの多いデータに基づいて訓練される。これらは、ラベル付け効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。基礎モデルが有効ALの3つの重要な構成要素にどのように影響するかを評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation vision or vision-language models are trained on large unlabeled or noisy data and learn robust representations that can achieve impressive zero- or few-shot performance on diverse tasks. Given these properties, they are a natural fit for active learning (AL), which aims to maximize labeling efficiency. However, the full potential of foundation models has not been explored in the context of AL, specifically in the low-budget regime. In this work, we evaluate how foundation models influence three critical components of effective AL, namely, 1) initial labeled pool selection, 2) ensuring diverse sampling, and 3) the trade-off between representative and uncertainty sampling. We systematically study how the robust representations of foundation models (DINOv2, OpenCLIP) challenge existing findings in active learning. Our observations inform the principled construction of a new simple and elegant AL strategy that balances uncertainty estimated via dropout with sample diversity. We extensively test our strategy on many challenging image classification benchmarks, including natural images as well as out-of-domain biomedical images that are relatively understudied in the AL literature. We also provide a highly performant and efficient implementation of modern AL strategies (including our method) at https://github.com/sanketx/AL-foundation-models.
Abstract（参考訳）: ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルのない、またはノイズの多いデータに基づいてトレーニングされ、多様なタスクで印象的なゼロショットまたは少数ショットのパフォーマンスを達成する堅牢な表現を学ぶ。これらの特性を考慮すると、ラベリング効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。しかし、ファンデーションモデルの可能性は、ALの文脈、特に低予算体制では検討されていない。本研究では,基礎モデルが有効ALの3つの重要な構成要素,すなわち,どのように影響するかを評価する。 1)初期ラベル付きプール選択 2【多様なサンプリングの確保】 3)代表者と不確実性サンプリングのトレードオフ基礎モデルの頑健な表現(DINOv2, OpenCLIP)が、アクティブラーニングにおける既存の知見にどのように挑戦するかを体系的に研究する。本研究は,サンプルの多様性とドロップアウトによって推定される不確実性をバランスさせる,単純でエレガントなAL戦略の原則構築について報告する。我々は、自然画像や、AL文献で比較的研究されている領域外バイオメディカル画像を含む、多くの挑戦的な画像分類ベンチマークにおいて、我々の戦略を広範囲に検証した。我々はまた、 https://github.com/sanketx/AL-foundation-modelsにおいて、現代のAL戦略(私たちのメソッドを含む)の高性能かつ効率的な実装を提供する。

関連論文リスト

Vision Large Language Models Are Good Noise Handlers in Engagement Analysis [54.397912827957164]
本稿では,VLM(Vision Large Language Models)を利用したアノテーションの洗練とトレーニングプロセスの指導を行うフレームワークを提案する。本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。改良された高信頼性サブセットで訓練された古典型コンピュータビジョンモデルは,カリキュラム戦略により強化され,改善されたことを示す。
論文参考訳（メタデータ） (2025-11-18T18:50:26Z)
Unsupervised Active Learning via Natural Feature Progressive Framework [8.553846772569521]
Natural Feature Progressive Framework (NFPF)は、サンプルの重要度を測定する方法に革命をもたらすUAL手法である。 NFPFは、モデルパフォーマンスに対する各サンプルの貢献を効果的に定量化するために、特定特徴学習マシン(SFLM)を使用している。包括的実験の結果,NFPFは既存のUAL手法を著しく上回り,視覚データセット上の教師付きAL手法と同等の性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-10-06T15:44:33Z)
Image Classification with Deep Reinforcement Active Learning [28.924413229981827]
多くの実世界のシナリオでは、ラベル付きデータは不足しており、ハンドラベルは時間、労力、コストが要求される。アクティブラーニング(英: Active Learning)は、専門家によって注釈付けされ、手作業によるデータのラベル付けを緩和する代替パラダイムである。本研究では,マルコフ決定過程(MDP)に基づく適応型能動学習法を提案する。
論文参考訳（メタデータ） (2024-12-27T18:37:51Z)
Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文参考訳（メタデータ） (2024-11-23T02:34:33Z)
ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-07-03T16:33:31Z)
Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文参考訳（メタデータ） (2024-06-13T16:30:32Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes [72.75421975804132]
学びアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。能動学習問題の対称性と独立性を利用した新しい分類法を提案する。私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文参考訳（メタデータ） (2023-09-11T14:16:37Z)
Active Learning Principles for In-Context Learning with Large Language Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。 ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文参考訳（メタデータ） (2023-05-23T17:16:04Z)
DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。 DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文参考訳（メタデータ） (2022-07-04T11:12:12Z)
Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文参考訳（メタデータ） (2022-04-14T22:58:30Z)
Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation [18.768030475943213]
マルチビュー環境での3次元ポーズ推定問題に対するアクティブラーニングの改良を行った。既存の単一ビューAL戦略を効率的に拡張できるフレームワークを開発する。我々は,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。
論文参考訳（メタデータ） (2021-12-27T14:34:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。