論文の概要: Active Learning via Vision-Language Model Adaptation with Open Data
- arxiv url: http://arxiv.org/abs/2506.01724v1
- Date: Mon, 02 Jun 2025 14:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.490503
- Title: Active Learning via Vision-Language Model Adaptation with Open Data
- Title(参考訳): オープンデータを用いたビジョンランゲージモデル適応によるアクティブラーニング
- Authors: Tong Wang, Jiaqi Wang, Shu Kong,
- Abstract要約: アクティブラーニング(AL)は、ラベリングとモデルトレーニングのための最も情報性の高いデータを戦略的に選択することで、データラベリングのコストを削減することを目的としている。
近年のAL法では VLM を探索しているが,VLM の事前表現データのような公開公開データの活用はされていない。
本研究では、タスク関連事例を検索してタスク特化例を増やすことで、そのようなデータを活用する。
- 参考スコア(独自算出の注目度): 33.33210375336842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained on web-scale open data, VLMs offer powerful capabilities for solving downstream tasks after being adapted to task-specific labeled data. Yet, data labeling can be expensive and may demand domain expertise. Active Learning (AL) aims to reduce this expense by strategically selecting the most informative data for labeling and model training. Recent AL methods have explored VLMs but have not leveraged publicly available open data, such as VLM's pretraining data. In this work, we leverage such data by retrieving task-relevant examples to augment the task-specific examples. As expected, incorporating them significantly improves AL. Given that our method exploits open-source VLM and open data, we refer to it as Active Learning with Open Resources (ALOR). Additionally, most VLM-based AL methods use prompt tuning (PT) for model adaptation, likely due to its ability to directly utilize pretrained parameters and the assumption that doing so reduces the risk of overfitting to limited labeled data. We rigorously compare popular adaptation approaches, including linear probing (LP), finetuning (FT), and contrastive tuning (CT). We reveal two key findings: (1) All adaptation approaches benefit from incorporating retrieved data, and (2) CT resoundingly outperforms other approaches across AL methods. Further analysis of retrieved data reveals a naturally imbalanced distribution of task-relevant classes, exposing inherent biases within the VLM. This motivates our novel Tail First Sampling (TFS) strategy for AL, an embarrassingly simple yet effective method that prioritizes sampling data from underrepresented classes to label. Extensive experiments demonstrate that our final method, contrastively finetuning VLM on both retrieved and TFS-selected labeled data, significantly outperforms existing methods.
- Abstract(参考訳): Webスケールのオープンデータに基づいてトレーニングされたVLMは、タスク固有のラベル付きデータに適応した後、下流タスクを解決する強力な機能を提供する。
しかし、データラベリングは高価であり、ドメインの専門知識を必要とする可能性がある。
アクティブラーニング(AL)は、ラベル付けとモデルトレーニングのための最も情報性の高いデータを戦略的に選択することで、このコストを削減することを目的としている。
近年のAL法ではVLMを探索しているが,VLMの事前学習データなどの公開公開データの活用はされていない。
本研究では,タスク関連例を検索してタスク特化例を増やすことで,そのようなデータを活用する。
予想通り、それらを組み込むことでALは大幅に改善される。
本手法は,オープンソースのVLMとオープンデータを利用するため,オープンリソースを用いたアクティブラーニング(ALOR)と呼ぶ。
さらに、ほとんどのVLMベースのALメソッドはモデル適応にプロンプトチューニング(PT)を使用するが、それはおそらく、事前訓練されたパラメータを直接利用でき、それによってラベル付きデータに過度に適合するリスクが軽減されるためである。
線形探索(LP)、ファインタニング(FT)、コントラストチューニング(CT)など、一般的な適応手法を厳格に比較する。
1)全ての適応手法は検索したデータを取り入れることの恩恵を受け,(2)CTはAL法で他の手法よりも優れていた。
得られたデータのさらなる分析により、タスク関連クラスの自然な不均衡分布が明らかになり、VLM内の固有のバイアスが明らかになる。
これは、未表現のクラスからラベルへのデータのサンプリングを優先する、恥ずかしいほどシンプルで効果的なメソッドであるALのための、私たちの新しいTail First Smpling(TFS)戦略を動機付けます。
検索およびTFS選択されたラベル付きデータのVLMを対照的に微調整する実験により,本手法が既存の手法よりも優れていたことを示す。
関連論文リスト
- SLearnLLM: A Self-Learning Framework for Efficient Domain-Specific Adaptation of Large Language Models [7.44035983292392]
人間の学習パターンにインスパイアされた大規模言語モデル(LLM)のための自己学習フレームワークを提案する。
このフレームワークは特定のドメインの細調整(SFT)データセットを入力として取り込む。
また,本手法は,全データセットの微調整で得られたものと比較して,トレーニング時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2025-05-23T04:50:54Z) - Transferable text data distillation by trajectory matching [27.826518926355295]
データ蒸留法は、少数のデータサンプルを合成し、全データセットのトレーニング効果を達成することを目的としている。
本研究では,軌道マッチングに基づいて擬似的プロンプトデータを学習する手法を提案する。
ARC-Easy と MMLU の命令チューニングデータセットを含む2つのベンチマークによる評価により,SOTA データ選択手法 LESS よりも蒸留法の方が優れていることを確認した。
論文 参考訳(メタデータ) (2025-04-14T02:39:26Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Transfer Learning or Self-supervised Learning? A Tale of Two Pretraining
Paradigms [36.04356511882304]
自己教師付き学習(SSL)は、幅広いアプリケーションで有望な結果を示している。
データとタスクの性質について明確な理解が得られていないため、一方のアプローチがもう一方よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T05:21:00Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。