論文の概要: Active Transfer Bagging: A New Approach for Accelerated Active Learning Acquisition of Data by Combined Transfer Learning and Bagging Based Models
- arxiv url: http://arxiv.org/abs/2602.02415v1
- Date: Mon, 02 Feb 2026 18:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.351162
- Title: Active Transfer Bagging: A New Approach for Accelerated Active Learning Acquisition of Data by Combined Transfer Learning and Bagging Based Models
- Title(参考訳): アクティブ・トランスファー・バッグング(Active Transfer Bagging: アクティブ・トランスファー・ラーニングとバッグ・ベース・モデルを組み合わせたデータ獲得のための新しいアプローチ
- Authors: Vivienne Pelletier, Daniel J. Rivera, Obinna Nwokonkwo, Steven A. Wilson, Christopher L. Muhich,
- Abstract要約: アクティブラーニングのためのシードデータセット選択法であるアクティブトランスファー・バッグング(ATBagging)を導入する。
ATBaggingは、バッジアンサンブルモデルのベイズ解釈から、候補データポイントのインフォメーション性を推定する。
ATBagging on four real-world datasets cover both target-transfer and feature-shift scenarios。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning has achieved remarkable success on many problems, but this success often depends on the existence of large, labeled datasets. While active learning can dramatically reduce labeling cost when annotations are expensive, early performance is frequently dominated by the initial seed set, typically chosen at random. In many applications, however, related or approximate datasets are readily available and can be leveraged to construct a better seed set. We introduce a new method for selecting the seed data set for active learning, Active-Transfer Bagging (ATBagging). ATBagging estimates the informativeness of candidate data point from a Bayesian interpretation of bagged ensemble models by comparing in-bag and out-of-bag predictive distributions from the labeled dataset, yielding an information-gain proxy. To avoid redundant selections, we impose feature-space diversity by sampling a determinantal point process (DPP) whose kernel uses Random Fourier Features and a quality-diversity factorization that incorporates the informativeness scores. This same blended method is used for selection of new data points to collect during the active learning phase. We evaluate ATBagging on four real-world datasets covering both target-transfer and feature-shift scenarios (QM9, ERA5, Forbes 2000, and Beijing PM2.5). Across seed sizes nseed = 10-100, ATBagging improves or ties early active learning and increases area under the learning-curve relative to alternative seed subset selection methodologies in almost all cases, with strongest benefits in low-data regimes. Thus, ATBagging provides a low-cost, high reward means to initiating active learning-based data collection.
- Abstract(参考訳): 現代の機械学習は多くの問題において顕著な成功を収めてきたが、この成功はしばしば大きなラベル付きデータセットの存在に依存している。
アクティブな学習は、アノテーションが高価であるときにラベリングコストを劇的に削減するが、初期性能は、通常ランダムに選択される初期シードセットに支配されることが多い。
しかし、多くのアプリケーションでは、関連するデータセットや近似データセットが容易に利用でき、より良いシードセットを構築するために利用することができる。
本稿では,アクティブラーニングのためのシードデータセット選択手法であるアクティブトランスファー・バグティング(ATBagging)を提案する。
ATBaggingは、ラベル付きデータセットからバッグ内およびバッグ外予測分布を比較し、ベイズ的解釈によるバッテリアンサンブルモデルの解釈から候補データポイントのインフォメーション性を推定し、情報ゲインプロキシを生成する。
冗長な選択を避けるため,カーネルがランダムフーリエ特徴を用いた決定点プロセス(DPP)と,情報度スコアを組み込んだ品質多様性因子化をサンプリングすることにより,特徴空間の多様性を強制する。
この混合手法は、アクティブラーニングフェーズ中に収集する新しいデータポイントの選択に使用される。
ATBagging on four real-world datasets covers both target-transfer and feature-shift scenarios (QM9, ERA5, Forbes 2000, Beijing PM2.5)。
シードサイズnseed = 10-100で、ABBaggingは初期のアクティブラーニングを改善し、ほとんどすべてのケースにおいて、他のシードサブセット選択手法と比較して学習曲線の領域を拡大する。
したがって、ATBaggingは、アクティブな学習ベースのデータ収集を開始するための低コストで高い報酬手段を提供する。
関連論文リスト
- Class Balance Matters to Active Class-Incremental Learning [61.11786214164405]
まず、大規模な未ラベルデータのプールから始めて、インクリメンタルな学習のための最も情報に富んだサンプルを注釈付けします。
そこで我々は,クラスバランスと情報提供性を両立させるため,クラスバランス選択(CBS)戦略を提案する。
我々のCBSは、プリトレーニング済みモデルとプロンプトチューニング技術に基づいて、これらのCILメソッドに接続し、再生することができる。
論文 参考訳(メタデータ) (2024-12-09T16:37:27Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Data Shapley Valuation for Efficient Batch Active Learning [21.76249748709411]
Active Data Shapley(ADS)は、バッチアクティブラーニングのためのフィルタリングレイヤーです。
ADSは、ラベルのないデータのプールが現実世界の異常を示す場合に特に効果的であることを示す。
論文 参考訳(メタデータ) (2021-04-16T18:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。