論文の概要: Active Deep Learning on Entity Resolution by Risk Sampling
- arxiv url: http://arxiv.org/abs/2012.12960v1
- Date: Wed, 23 Dec 2020 20:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 18:05:00.837944
- Title: Active Deep Learning on Entity Resolution by Risk Sampling
- Title(参考訳): リスクサンプリングによるエンティティ解決のためのアクティブ深層学習
- Authors: Youcef Nafa, Qun Chen, Zhaoqiang Chen, Xingyu Lu, Haiyang He, Tianyi
Duan and Zhanhuai Li
- Abstract要約: アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。
実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。
ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。
実データに対する提案手法の有効性を比較検討により実証的に検証した。
- 参考スコア(独自算出の注目度): 5.219701379581547
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While the state-of-the-art performance on entity resolution (ER) has been
achieved by deep learning, its effectiveness depends on large quantities of
accurately labeled training data. To alleviate the data labeling burden, Active
Learning (AL) presents itself as a feasible solution that focuses on data
deemed useful for model training. Building upon the recent advances in risk
analysis for ER, which can provide a more refined estimate on label
misprediction risk than the simpler classifier outputs, we propose a novel AL
approach of risk sampling for ER. Risk sampling leverages misprediction risk
estimation for active instance selection. Based on the core-set
characterization for AL, we theoretically derive an optimization model which
aims to minimize core-set loss with non-uniform Lipschitz continuity. Since the
defined weighted K-medoids problem is NP-hard, we then present an efficient
heuristic algorithm. Finally, we empirically verify the efficacy of the
proposed approach on real data by a comparative study. Our extensive
experiments have shown that it outperforms the existing alternatives by
considerable margins. Using ER as a test case, we demonstrate that risk
sampling is a promising approach potentially applicable to other challenging
classification tasks.
- Abstract(参考訳): 実体分解能(ER)の最先端性能は深層学習によって達成されているが、その有効性は大量の正確なラベル付きトレーニングデータに依存する。
データラベリングの負担を軽減するため、アクティブラーニング(AL)は、モデルトレーニングに役立つと考えられるデータに焦点を当てた、実現可能なソリューションとして自己を提示する。
ERのリスク分析の最近の進歩に基づき、より単純な分類器出力よりもラベル誤予測リスクをより正確に見積もることができるようにし、ERのリスクサンプリングの新たなALアプローチを提案する。
リスクサンプリングは、アクティブなインスタンス選択に誤予測リスク推定を利用する。
ALのコアセット特性に基づいて、不均一リプシッツ連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。
重み付きk-メドイド問題はnp-ハードであるため、効率的なヒューリスティックアルゴリズムを提案する。
最後に,実データに対する提案手法の有効性を比較検討により実証的に検証する。
我々の広範な実験により、既存の代替品よりもかなりの差で優れていることが示されている。
ERをテストケースとして使用することにより、リスクサンプリングが他の困難な分類タスクに適用可能な有望なアプローチであることを実証する。
関連論文リスト
- Progressive Generalization Risk Reduction for Data-Efficient Causal Effect Estimation [30.49865329385806]
因果効果推定(英: Causal effect Estimation、CEE)は、エンティティの観測されていない反事実結果を予測する重要なツールである。
本稿では,ラベル付きデータサンプルが最初から不足している,より現実的なCEE設定について検討する。
バッチワイズラベル取得のためのモデルアグノスティック因果アクティブラーニング(MACAL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-18T03:17:40Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Mitigating sampling bias in risk-based active learning via an EM
algorithm [0.0]
リスクベースのアクティブラーニングは、オンライン意思決定支援のための統計分類器を開発するためのアプローチである。
データラベルクエリは、初期データポイントに対する完全情報の期待値に応じてガイドされる。
半教師付きアプローチは、EMアルゴリズムを介して未ラベルデータの擬似ラベルを組み込むことでサンプリングバイアスに対処する。
論文 参考訳(メタデータ) (2022-06-25T08:48:25Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Adaptive Deep Learning for Entity Resolution by Risk Analysis [5.496296462160264]
本論文では, 特定の特性によって, 対象作業負荷に対する深層モデルをチューニングする, 新たなリスクベースアプローチを提案する。
理論分析の結果,リスクに基づく適応トレーニングは,誤った予測されたインスタンスのラベル状態をかなり良い確率で修正できることがわかった。
論文 参考訳(メタデータ) (2020-12-07T08:05:46Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。