論文の概要: Active Cost-aware Labeling of Streaming Data
- arxiv url: http://arxiv.org/abs/2304.06808v1
- Date: Thu, 13 Apr 2023 20:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 15:20:20.592690
- Title: Active Cost-aware Labeling of Streaming Data
- Title(参考訳): ストリーミングデータのアクティブコストアウェアラベリング
- Authors: Ting Cai, Kirthevasan Kandasamy
- Abstract要約: 本研究では,アクティブな学習者がデータポイントのストリームに直面するストリーミングデータのラベル付けについて検討する。
我々は,不確かさが時間とコスト依存閾値よりも大きい点をラベル付けするアルゴリズムが,最悪の場合の上限値が$O(Bfrac13 Kfrac13 T)となることを示す。
- 参考スコア(独自算出の注目度): 11.501619634838312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study actively labeling streaming data, where an active learner is faced
with a stream of data points and must carefully choose which of these points to
label via an expensive experiment. Such problems frequently arise in
applications such as healthcare and astronomy. We first study a setting when
the data's inputs belong to one of $K$ discrete distributions and formalize
this problem via a loss that captures the labeling cost and the prediction
error. When the labeling cost is $B$, our algorithm, which chooses to label a
point if the uncertainty is larger than a time and cost dependent threshold,
achieves a worst-case upper bound of $O(B^{\frac{1}{3}} K^{\frac{1}{3}}
T^{\frac{2}{3}})$ on the loss after $T$ rounds. We also provide a more nuanced
upper bound which demonstrates that the algorithm can adapt to the arrival
pattern, and achieves better performance when the arrival pattern is more
favorable. We complement both upper bounds with matching lower bounds. We next
study this problem when the inputs belong to a continuous domain and the output
of the experiment is a smooth function with bounded RKHS norm. After $T$ rounds
in $d$ dimensions, we show that the loss is bounded by $O(B^{\frac{1}{d+3}}
T^{\frac{d+2}{d+3}})$ in an RKHS with a squared exponential kernel and by
$O(B^{\frac{1}{2d+3}} T^{\frac{2d+2}{2d+3}})$ in an RKHS with a Mat\'ern
kernel. Our empirical evaluation demonstrates that our method outperforms other
baselines in several synthetic experiments and two real experiments in medicine
and astronomy.
- Abstract(参考訳): アクティブな学習者がデータポイントのストリームに直面するストリーミングデータのラベル付けを積極的に研究し、高価な実験によってラベル付けするポイントを慎重に選択する必要がある。
ラベル付けコストがb$の場合、不確かさが時間とコスト依存のしきい値より大きい場合は点をラベル付けするアルゴリズムは、$t$ ラウンド後の損失に対して$o(b^{\frac{1}{3}} k^{\frac{1}{3}} t^{\frac{2}{3}})の最悪の上限を達成する。
$d$次元での$T$ラウンドの後、損失は$O(B^{\frac{1}{d+3}} T^{\frac{d+2}{d+3}})$と$O(B^{\frac{1}{2d+3}} T^{\frac{2d+2}{2d+3}})$で、Mat\'ernカーネルを持つRKHSで束縛されることを示す。
