論文の概要: Leveraging Vision-Language Models as Weak Annotators in Active Learning
- arxiv url: http://arxiv.org/abs/2605.00480v1
- Date: Fri, 01 May 2026 07:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.894866
- Title: Leveraging Vision-Language Models as Weak Annotators in Active Learning
- Title(参考訳): アクティブラーニングにおける弱アノテーションとしての視覚言語モデルの活用
- Authors: Phuong Ngoc Nguyen, Kaito Shiku, Ryoma Bise, Seiichi Uchida, Shinnosuke Matsuo,
- Abstract要約: 視覚言語モデル(VLM)は、コストのかかる人間のアノテーションへの依存を減らすために利用することができる。
本稿では,人間の微粒なアノテーションと粗粒なVLM生成弱ラベルを組み合わせた能動的学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.163098563588727
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Active learning aims to reduce annotation cost by selectively querying informative samples for supervision under a limited labeling budget. In this work, we investigate how vision-language models (VLMs) can be leveraged to further reduce the reliance on costly human annotation within the active learning paradigm. To this end, we find that the reliability of VLMs varies significantly with label granularity in fine-grained recognition tasks: they perform poorly on fine-grained labels but can provide accurate coarse-grained labels. Leveraging this property, we propose an active learning framework that combines fine-grained human annotations with coarse-grained VLM-generated weak labels through instance-wise label assignment. We further model the systematic noise in VLM-generated labels using a small set of trusted full labels. Experiments on CUB200 and FGVC-Aircraft show that the proposed framework consistently outperforms existing active learning methods under the same annotation budget.
- Abstract(参考訳): アクティブラーニングは、限定的なラベル付け予算の下で、監視のための情報的サンプルを選択的にクエリすることで、アノテーションコストを削減することを目的としている。
本研究では,視覚言語モデル(VLM)をどのように活用して,能動的学習パラダイムにおける人的アノテーションへの依存をさらに軽減するかを検討する。
この結果から, VLMの信頼性は, 粒度認識タスクにおけるラベルの粒度によって大きく異なることがわかった。
この特性を生かして,細粒度人間のアノテーションと粗粒度VLM生成弱ラベルをインスタンスワイドラベル代入により組み合わせた能動的学習フレームワークを提案する。
信頼された完全ラベルの小さなセットを用いて、VLM生成ラベルのシステマティックノイズをモデル化する。
CUB200 と FGVC-Aircraft の実験では、提案フレームワークは、同じアノテーション予算の下で既存のアクティブラーニング手法を一貫して上回っている。
関連論文リスト
- Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation [35.1208076670736]
本稿では,大言語モデルにおいて不確実性発生時に可能なラベルを全て出力することを推奨する新しい候補アノテーションパラダイムを提案する。
下流タスクにユニークなラベルを提供することを保証するため,小言語モデルを用いて候補アノテーションを蒸留する教師学習フレームワークCanDistを開発した。
論文 参考訳(メタデータ) (2025-06-04T11:42:37Z) - Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Tuning Vision-Language Models with Candidate Labels by Prompt Alignment [8.944708621017812]
視覚言語モデル(VLM)は、画像テキストペアの大規模なトレーニングデータセットから高品質な表現を学習することができる。
プロンプト学習は、下流タスクに適応するためにVLMを微調整する一般的なアプローチである。
本稿では,学習過程を候補ラベルでガイドする枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-10T13:19:31Z) - Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。