論文の概要: Adaptive Deep Learning for Entity Resolution by Risk Analysis
- arxiv url: http://arxiv.org/abs/2012.03513v3
- Date: Sat, 13 Mar 2021 03:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:40:43.824667
- Title: Adaptive Deep Learning for Entity Resolution by Risk Analysis
- Title(参考訳): リスク分析によるエンティティ解決のための適応型ディープラーニング
- Authors: Qun Chen, Zhaoqiang Chen, Youcef Nafa, Tianyi Duan, Zhanhuai Li
- Abstract要約: 本論文では, 特定の特性によって, 対象作業負荷に対する深層モデルをチューニングする, 新たなリスクベースアプローチを提案する。
理論分析の結果,リスクに基づく適応トレーニングは,誤った予測されたインスタンスのラベル状態をかなり良い確率で修正できることがわかった。
- 参考スコア(独自算出の注目度): 5.496296462160264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art performance on entity resolution (ER) has been achieved
by deep learning. However, deep models are usually trained on large quantities
of accurately labeled training data, and can not be easily tuned towards a
target workload. Unfortunately, in real scenarios, there may not be sufficient
labeled training data, and even worse, their distribution is usually more or
less different from the target workload even when they come from the same
domain.
To alleviate the said limitations, this paper proposes a novel risk-based
approach to tune a deep model towards a target workload by its particular
characteristics. Built on the recent advances on risk analysis for ER, the
proposed approach first trains a deep model on labeled training data, and then
fine-tunes it by minimizing its estimated misprediction risk on unlabeled
target data. Our theoretical analysis shows that risk-based adaptive training
can correct the label status of a mispredicted instance with a fairly good
chance. We have also empirically validated the efficacy of the proposed
approach on real benchmark data by a comparative study. Our extensive
experiments show that it can considerably improve the performance of deep
models. Furthermore, in the scenario of distribution misalignment, it can
similarly outperform the state-of-the-art alternative of transfer learning by
considerable margins. Using ER as a test case, we demonstrate that risk-based
adaptive training is a promising approach potentially applicable to various
challenging classification tasks.
- Abstract(参考訳): 実体分解能(ER)の最先端性能は深層学習によって達成されている。
しかし、深層モデルは通常、正確にラベル付けされたトレーニングデータに基づいてトレーニングされ、ターゲットのワークロードに向けて簡単にチューニングできない。
残念ながら、実際のシナリオでは、十分なラベル付きトレーニングデータが存在しず、さらに悪いことに、同じドメインから来た場合でも、その分散は通常、ターゲットのワークロードと大きく、あるいはそれ以下が異なる。
この制約を緩和するため,本論文では,特定の特性により,対象ワークロードに対して深いモデルをチューニングするためのリスクベースアプローチを提案する。
ERのリスク分析の最近の進歩に基づき、提案手法はまずラベル付きトレーニングデータに基づいて深層モデルを訓練し、ラベルなしターゲットデータに対する推定誤予測リスクを最小限に抑えて微調整する。
理論分析の結果,リスクに基づく適応トレーニングは,誤った予測されたインスタンスのラベル状態をかなり良い確率で修正できることがわかった。
また,実ベンチマークデータに対する提案手法の有効性を比較検討により実証的に検証した。
広範な実験により,深層モデルの性能が大幅に向上することが示された。
さらに、分布不均衡のシナリオでは、転校学習の最先端の代替手段をかなりのマージンで上回ることができる。
ERをテストケースとして使用することにより、リスクベースの適応トレーニングが様々な課題の分類タスクに適用可能な有望なアプローチであることを実証する。
関連論文リスト
- Distribution-free risk assessment of regression-based machine learning
algorithms [6.507711025292814]
我々は回帰アルゴリズムとモデル予測の周囲に定義された区間内に存在する真のラベルの確率を計算するリスク評価タスクに焦点をあてる。
そこで,本研究では,正のラベルを所定の確率で含むことが保証される予測区間を提供する共形予測手法を用いてリスク評価問題を解決する。
論文 参考訳(メタデータ) (2023-10-05T13:57:24Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Post-hoc Uncertainty Learning using a Dirichlet Meta-Model [28.522673618527417]
本研究では,不確実性定量化能力の優れた事前学習モデルを構築するための新しいベイズメタモデルを提案する。
提案手法は追加のトレーニングデータを必要としないため,不確かさの定量化に十分な柔軟性がある。
提案するメタモデルアプローチの柔軟性と,これらのアプリケーションに対する優れた経験的性能を実証する。
論文 参考訳(メタデータ) (2022-12-14T17:34:11Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Active Deep Learning on Entity Resolution by Risk Sampling [5.219701379581547]
アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。
実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。
ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。
実データに対する提案手法の有効性を比較検討により実証的に検証した。
論文 参考訳(メタデータ) (2020-12-23T20:38:25Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。