論文の概要: Active Prompt Learning in Vision Language Models
- arxiv url: http://arxiv.org/abs/2311.11178v3
- Date: Thu, 21 Mar 2024 07:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 19:47:00.244797
- Title: Active Prompt Learning in Vision Language Models
- Title(参考訳): 視覚言語モデルにおけるアクティブ・プロンプト学習
- Authors: Jihwan Bang, Sumyeong Ahn, Jae-Gil Lee,
- Abstract要約: 我々は,PCBと表記される事前学習型視覚言語モデルのための新しいアクティブラーニングフレームワークを考案した。
そこで本研究では,7つの実世界のデータセットを用いて実験を行い,PCBが従来の能動的学習法やランダムサンプリング法を超えることを示した。
- 参考スコア(独自算出の注目度): 21.276006224504748
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained Vision Language Models (VLMs) have demonstrated notable progress in various zero-shot tasks, such as classification and retrieval. Despite their performance, because improving performance on new tasks requires task-specific knowledge, their adaptation is essential. While labels are needed for the adaptation, acquiring them is typically expensive. To overcome this challenge, active learning, a method of achieving a high performance by obtaining labels for a small number of samples from experts, has been studied. Active learning primarily focuses on selecting unlabeled samples for labeling and leveraging them to train models. In this study, we pose the question, "how can the pre-trained VLMs be adapted under the active learning framework?" In response to this inquiry, we observe that (1) simply applying a conventional active learning framework to pre-trained VLMs even may degrade performance compared to random selection because of the class imbalance in labeling candidates, and (2) the knowledge of VLMs can provide hints for achieving the balance before labeling. Based on these observations, we devise a novel active learning framework for VLMs, denoted as PCB. To assess the effectiveness of our approach, we conduct experiments on seven different real-world datasets, and the results demonstrate that PCB surpasses conventional active learning and random sampling methods. Code will be available in https://github.com/kaist-dmlab/pcb .
- Abstract(参考訳): 事前訓練された視覚言語モデル(VLM)は、分類や検索など、様々なゼロショットタスクにおいて顕著な進歩を見せている。
彼らのパフォーマンスにもかかわらず、新しいタスクのパフォーマンスを改善するにはタスク固有の知識が必要であるため、それらの適応は不可欠である。
ラベルは適応に必要だが、その取得は通常高価である。
この課題を克服するために,専門家から少数のサンプルのラベルを取得し,高い性能を達成するための能動的学習法が研究されている。
アクティブラーニングは、主にラベル付けされていないサンプルを選択し、モデルをトレーニングするためにそれらを活用することに焦点を当てている。
本研究では,「事前学習されたVLMは,アクティブラーニングフレームワークの下でどのように適応できるのか?」という疑問を提起する。
本調査では,(1)事前学習したVLMに対して従来のアクティブラーニングフレームワークを適用すれば,ラベル付け候補のクラス不均衡のため,ランダム選択よりも性能が低下する可能性があり,(2)VLMの知識がラベル付け前のバランスを達成するヒントとなることを観察する。
これらの観測に基づいて,PCB と表記される VLM のための新しいアクティブラーニングフレームワークを考案した。
提案手法の有効性を評価するため,7つの実世界のデータセットを用いて実験を行い,PCBが従来の能動的学習法やランダムサンプリング法を超越していることを示す。
コードはhttps://github.com/kaist-dmlab/pcbで入手できる。
関連論文リスト
- Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Making Large Vision Language Models to be Good Few-shot Learners [11.204701216476815]
FSC(Few-shot Classification)は、コンピュータビジョンにおける基本的な課題である。
LVLMは、サポートデータから有用な情報を効果的に抽出するのではなく、特定の応答形式を学習するリスクを負う。
本稿では,FSCにおけるLVLMの性能について検討し,学習不足や重度の位置バイアスの有無などの重要な問題を明らかにする。
論文 参考訳(メタデータ) (2024-08-21T03:01:11Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Tuning Vision-Language Models with Candidate Labels by Prompt Alignment [8.013652039026264]
視覚言語モデル(VLM)は、画像テキストペアの大規模なトレーニングデータセットから高品質な表現を学習することができる。
プロンプト学習は、下流タスクに適応するためにVLMを微調整する一般的なアプローチである。
本稿では,学習過程を候補ラベルでガイドする枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-10T13:19:31Z) - Fair Few-shot Learning with Auxiliary Sets [53.30014767684218]
多くの機械学習(ML)タスクでは、ラベル付きデータサンプルしか収集できないため、フェアネスのパフォーマンスが低下する可能性がある。
本稿では,限定的なトレーニングサンプルを用いたフェアネス認識学習課題をemphfair few-shot Learning問題として定義する。
そこで我々は,学習した知識をメタテストタスクに一般化し,様々なメタトレーニングタスクに公平な知識を蓄積する新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2023-08-28T06:31:37Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Just Label What You Need: Fine-Grained Active Selection for Perception
and Prediction through Partially Labeled Scenes [78.23907801786827]
提案手法は,コストに配慮した手法と,部分的にラベル付けされたシーンを通じて詳細なサンプル選択を可能にする一般化を導入している。
実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2021-04-08T17:57:41Z) - Rebuilding Trust in Active Learning with Actionable Metrics [77.99796068970569]
アクティブラーニング(AL)は研究の活発な領域であるが、プレッシャーのあるニーズにもかかわらず、業界ではほとんど使われない。
これは部分的には目的のずれによるものであり、研究は選択したデータセットで最高の結果を得るよう努力している。
積極的学習における産業実践者の信頼回復を支援するために,様々な活動可能な指標を提示する。
論文 参考訳(メタデータ) (2020-12-18T09:34:59Z) - Active and Incremental Learning with Weak Supervision [7.2288756536476635]
本研究では,逐次学習方式と能動学習方式の組み合わせについて述べる。
オブジェクト検出タスクは、PASCAL VOCデータセット上で連続的な探索コンテキストで評価される。
また,実世界の生物多様性アプリケーションにおいて,能動的・漸進的学習に基づく弱教師付きシステムを検証する。
論文 参考訳(メタデータ) (2020-01-20T13:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。