論文の概要: Enhancing Semi-Supervised Learning via Representative and Diverse Sample Selection
- arxiv url: http://arxiv.org/abs/2409.11653v1
- Date: Wed, 18 Sep 2024 02:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:19:53.422646
- Title: Enhancing Semi-Supervised Learning via Representative and Diverse Sample Selection
- Title(参考訳): 代表・複数サンプル選択による半教師付き学習の促進
- Authors: Qian Shao, Jiangrui Kang, Qiyuan Chen, Zepeng Li, Hongxia Xu, Yiwen Cao, Jiajuan Liang, Jian Wu,
- Abstract要約: 半監督学習(SSL)は多くのディープラーニングタスクにおいて好まれるパラダイムとなっている。
ラベル付けのためのサンプルの選択方法も,特に低予算環境下では,パフォーマンスに大きく影響する。
新たな基準である$alpha$-Maximum Mean Discrepancy(alpha$-MMD)を最小化するために修正されたFrank-Wolfeアルゴリズムを採用することで、RDSSはラベルなしデータからアノテーションの代表的なサブセットをサンプリングする。
- 参考スコア(独自算出の注目度): 3.9620215314408984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-Supervised Learning (SSL) has become a preferred paradigm in many deep learning tasks, which reduces the need for human labor. Previous studies primarily focus on effectively utilising the labelled and unlabeled data to improve performance. However, we observe that how to select samples for labelling also significantly impacts performance, particularly under extremely low-budget settings. The sample selection task in SSL has been under-explored for a long time. To fill in this gap, we propose a Representative and Diverse Sample Selection approach (RDSS). By adopting a modified Frank-Wolfe algorithm to minimise a novel criterion $\alpha$-Maximum Mean Discrepancy ($\alpha$-MMD), RDSS samples a representative and diverse subset for annotation from the unlabeled data. We demonstrate that minimizing $\alpha$-MMD enhances the generalization ability of low-budget learning. Experimental results show that RDSS consistently improves the performance of several popular SSL frameworks and outperforms the state-of-the-art sample selection approaches used in Active Learning (AL) and Semi-Supervised Active Learning (SSAL), even with constrained annotation budgets.
- Abstract(参考訳): 半監督学習(SSL)は、多くのディープラーニングタスクにおいて好まれるパラダイムとなり、人間の労働力の必要性を減らしている。
従来の研究は主に、ラベル付きデータやラベルなしデータを効果的に活用してパフォーマンスを向上させることに焦点を当てていた。
しかし,ラベル付けのためのサンプルの選択方法が,特に低予算環境下では,性能に大きな影響を及ぼすことが観察された。
SSLのサンプル選択タスクは、長い間検討されていない。
このギャップを埋めるために,代表サンプル選択法(RDSS)を提案する。
改良されたFrank-Wolfeアルゴリズムを採用して、新しい基準である$\alpha$-Maximum Mean Discrepancy (\alpha$-MMD)を最小化することで、RDSSはラベルなしデータから、代表的で多様なアノテーションのサブセットをサンプリングする。
我々は,$\alpha$-MMDの最小化が低予算学習の一般化能力を高めることを実証した。
実験の結果,RDSSはいくつかの一般的なSSLフレームワークの性能を一貫して改善し,制約付きアノテーション予算であっても,アクティブラーニング (AL) やセミスーパーバイザードアクティブラーニング (SSAL) で使用されている最先端のサンプル選択アプローチよりも優れていた。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Enhancing Vision-Language Few-Shot Adaptation with Negative Learning [11.545127156146368]
我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。
そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。
提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-19T17:59:39Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - On the Effectiveness of Out-of-Distribution Data in Self-Supervised
Long-Tail Learning [15.276356824489431]
我々は、長期学習(COLT)のためのOODデータを用いたコントラストを提案する。
我々はSSL長期学習におけるOODサンプルの対直感的有用性を実証的に同定した。
提案手法は,長い尾のデータセット上でのSSLの性能を大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-06-08T04:32:10Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Active Learning at the ImageNet Scale [43.595076693347835]
本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
論文 参考訳(メタデータ) (2021-11-25T02:48:51Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。