論文の概要: A Planning Framework for Adaptive Labeling
- arxiv url: http://arxiv.org/abs/2502.06076v1
- Date: Mon, 10 Feb 2025 00:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:38.541254
- Title: A Planning Framework for Adaptive Labeling
- Title(参考訳): 適応ラベル作成のための計画フレームワーク
- Authors: Daksh Mittal, Yuanzhe Ma, Shalmali Joshi, Hongseok Namkoong,
- Abstract要約: 本稿では,バッチで計測作業を再配置できる適応ラベリングフレームワークを提案する。
1段階のルックアヘッドポリシーでさえ、一般的な適応ラベルよりも大幅に優れることを示す。
本稿では,従来の非微分可能MDPのスムーズなバージョンに基づいて,直接バックプロパゲーションに基づくSmoothed-Autodiffを提案する。
- 参考スコア(独自算出の注目度): 8.883000217198843
- License:
- Abstract: Ground truth labels/outcomes are critical for advancing scientific and engineering applications, e.g., evaluating the treatment effect of an intervention or performance of a predictive model. Since randomly sampling inputs for labeling can be prohibitively expensive, we introduce an adaptive labeling framework where measurement effort can be reallocated in batches. We formulate this problem as a Markov decision process where posterior beliefs evolve over time as batches of labels are collected (state transition), and batches (actions) are chosen to minimize uncertainty at the end of data collection. We design a computational framework that is agnostic to different uncertainty quantification approaches including those based on deep learning, and allows a diverse array of policy gradient approaches by relying on continuous policy parameterizations. On real and synthetic datasets, we demonstrate even a one-step lookahead policy can substantially outperform common adaptive labeling heuristics, highlighting the virtue of planning. On the methodological side, we note that standard REINFORCE-style policy gradient estimators can suffer high variance since they rely only on zeroth order information. We propose a direct backpropagation-based approach, Smoothed-Autodiff, based on a carefully smoothed version of the original non-differentiable MDP. Our method enjoys low variance at the price of introducing bias, and we theoretically and empirically show that this trade-off can be favorable.
- Abstract(参考訳): 地上の真理ラベル/成果は、例えば、予測モデルの介入や性能の処理効果を評価するなど、科学的および工学的応用の進展に不可欠である。
また,ラベリングのためのランダムサンプリングは極めて高価であるため,バッチで計測作業を再配置できる適応型ラベリングフレームワークを導入する。
ラベルのバッチが収集される(状態遷移)と、データ収集の最後に不確実性を最小化するためにバッチ(アクション)が選択されるときに、後続の信念が時間とともに進化するマルコフ決定プロセスとしてこの問題を定式化する。
深層学習を含む不確実性定量化アプローチに依存しない計算フレームワークを設計し,連続的な政策パラメータ化に頼ることで,多種多様な政策勾配アプローチを可能にする。
実データと合成データを用いて,一段階のルックアヘッドポリシーさえも,一般的な適応的ラベル付けヒューリスティックを著しく上回り,計画の長所を強調している。
方法論面では、標準REINFORCEスタイルのポリシー勾配推定器は、0次情報のみに依存するため、高いばらつきを被る可能性があることに留意する。
本稿では,従来の非微分可能MDPのスムーズなバージョンに基づいて,直接バックプロパゲーションに基づくSmoothed-Autodiffを提案する。
本手法はバイアス導入価格の低分散を享受し,このトレードオフが有効であることを示す理論的かつ実証的な方法である。
関連論文リスト
- Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Hypothesis Testing for Class-Conditional Noise Using Local Maximum
Likelihood [1.8798171797988192]
教師付き学習では、学習が行われる前にラベルの質を自動的に評価することがオープンな研究課題である。
本稿では,本モデルが局所極大近似推定の積である場合,同様の手順を踏襲できることを示す。
この異なるビューは、よりリッチなモデルクラスへのアクセスを提供することで、テストのより広範な適用を可能にする。
論文 参考訳(メタデータ) (2023-12-15T22:14:58Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Partial-Label Regression [54.74984751371617]
部分ラベル学習は、弱い教師付き学習環境であり、各トレーニング例に候補ラベルのセットをアノテートすることができる。
部分ラベル学習に関する従来の研究は、候補ラベルがすべて離散的な分類設定のみに焦点を当てていた。
本稿では,各トレーニング例に実値付き候補ラベルのセットをアノテートした部分ラベル回帰を初めて検討する。
論文 参考訳(メタデータ) (2023-06-15T09:02:24Z) - Active Learning For Contextual Linear Optimization: A Margin-Based Approach [6.09977411428684]
ラベル取得アルゴリズムを導入し、ラベルなしデータからラベルの特徴サンプルの要求を逐次決定する。
ラベルが取得されたサンプルの数として定義されるラベル複雑性の上限を導出する。
提案アルゴリズムは,教師付き学習手法よりもラベルの複雑さがはるかに小さいことを示す。
論文 参考訳(メタデータ) (2023-05-11T05:44:36Z) - Partial sequence labeling with structured Gaussian Processes [8.239028141030621]
部分列ラベリングのための構造付きガウス過程を提案する。
予測の不確実性を符号化し、モデル選択やハイパーパラメータ学習に余分な労力を要しない。
いくつかのシーケンスラベリングタスクで評価を行い,実験結果から提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-09-20T00:56:49Z) - Don't Throw it Away! The Utility of Unlabeled Data in Fair Decision
Making [14.905698014932488]
そこで本研究では,実用的公正意思決定のための変分オートエンコーダに基づく新しい手法を提案する。
本手法はラベル付きデータとラベルなしデータの両方を活用する非バイアスデータ表現を学習する。
提案手法は,低分散の基底構造に従って最適(フェア)ポリシーに収束する。
論文 参考訳(メタデータ) (2022-05-10T10:33:11Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。