Fugu-MT 論文翻訳(概要): Active Deep Learning on Entity Resolution by Risk Sampling

論文の概要: Active Deep Learning on Entity Resolution by Risk Sampling

arxiv url: http://arxiv.org/abs/2012.12960v1
Date: Wed, 23 Dec 2020 20:38:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-25 18:05:00.837944
Title: Active Deep Learning on Entity Resolution by Risk Sampling
Title（参考訳）: リスクサンプリングによるエンティティ解決のためのアクティブ深層学習
Authors: Youcef Nafa, Qun Chen, Zhaoqiang Chen, Xingyu Lu, Haiyang He, Tianyi Duan and Zhanhuai Li
Abstract要約: アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。 ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。実データに対する提案手法の有効性を比較検討により実証的に検証した。
参考スコア（独自算出の注目度）: 5.219701379581547
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While the state-of-the-art performance on entity resolution (ER) has been achieved by deep learning, its effectiveness depends on large quantities of accurately labeled training data. To alleviate the data labeling burden, Active Learning (AL) presents itself as a feasible solution that focuses on data deemed useful for model training. Building upon the recent advances in risk analysis for ER, which can provide a more refined estimate on label misprediction risk than the simpler classifier outputs, we propose a novel AL approach of risk sampling for ER. Risk sampling leverages misprediction risk estimation for active instance selection. Based on the core-set characterization for AL, we theoretically derive an optimization model which aims to minimize core-set loss with non-uniform Lipschitz continuity. Since the defined weighted K-medoids problem is NP-hard, we then present an efficient heuristic algorithm. Finally, we empirically verify the efficacy of the proposed approach on real data by a comparative study. Our extensive experiments have shown that it outperforms the existing alternatives by considerable margins. Using ER as a test case, we demonstrate that risk sampling is a promising approach potentially applicable to other challenging classification tasks.
Abstract（参考訳）: 実体分解能(ER)の最先端性能は深層学習によって達成されているが、その有効性は大量の正確なラベル付きトレーニングデータに依存する。データラベリングの負担を軽減するため、アクティブラーニング(AL)は、モデルトレーニングに役立つと考えられるデータに焦点を当てた、実現可能なソリューションとして自己を提示する。 ERのリスク分析の最近の進歩に基づき、より単純な分類器出力よりもラベル誤予測リスクをより正確に見積もることができるようにし、ERのリスクサンプリングの新たなALアプローチを提案する。リスクサンプリングは、アクティブなインスタンス選択に誤予測リスク推定を利用する。 ALのコアセット特性に基づいて、不均一リプシッツ連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。重み付きk-メドイド問題はnp-ハードであるため、効率的なヒューリスティックアルゴリズムを提案する。最後に,実データに対する提案手法の有効性を比較検討により実証的に検証する。我々の広範な実験により、既存の代替品よりもかなりの差で優れていることが示されている。 ERをテストケースとして使用することにより、リスクサンプリングが他の困難な分類タスクに適用可能な有望なアプローチであることを実証する。

関連論文リスト

Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文参考訳（メタデータ） (2024-11-29T14:22:51Z)
Progressive Generalization Risk Reduction for Data-Efficient Causal Effect Estimation [30.49865329385806]
因果効果推定(英: Causal effect Estimation、CEE)は、エンティティの観測されていない反事実結果を予測する重要なツールである。本稿では,ラベル付きデータサンプルが最初から不足している,より現実的なCEE設定について検討する。バッチワイズラベル取得のためのモデルアグノスティック因果アクティブラーニング(MACAL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-18T03:17:40Z)
Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文参考訳（メタデータ） (2024-01-18T08:12:23Z)
Optimal Sample Selection Through Uncertainty Estimation and Its Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文参考訳（メタデータ） (2023-09-05T14:06:33Z)
Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-12-20T19:29:37Z)
Mitigating sampling bias in risk-based active learning via an EM algorithm [0.0]
リスクベースのアクティブラーニングは、オンライン意思決定支援のための統計分類器を開発するためのアプローチである。データラベルクエリは、初期データポイントに対する完全情報の期待値に応じてガイドされる。半教師付きアプローチは、EMアルゴリズムを介して未ラベルデータの擬似ラベルを組み込むことでサンプリングバイアスに対処する。
論文参考訳（メタデータ） (2022-06-25T08:48:25Z)
Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。 PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文参考訳（メタデータ） (2022-01-26T19:59:14Z)
Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文参考訳（メタデータ） (2021-06-03T09:50:13Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
Adaptive Deep Learning for Entity Resolution by Risk Analysis [5.496296462160264]
本論文では, 特定の特性によって, 対象作業負荷に対する深層モデルをチューニングする, 新たなリスクベースアプローチを提案する。理論分析の結果,リスクに基づく適応トレーニングは,誤った予測されたインスタンスのラベル状態をかなり良い確率で修正できることがわかった。
論文参考訳（メタデータ） (2020-12-07T08:05:46Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。