論文の概要: Combining Data-driven Supervision with Human-in-the-loop Feedback for
Entity Resolution
- arxiv url: http://arxiv.org/abs/2111.10497v1
- Date: Sat, 20 Nov 2021 02:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 04:43:06.745746
- Title: Combining Data-driven Supervision with Human-in-the-loop Feedback for
Entity Resolution
- Title(参考訳): エンティティ解決のためのデータ駆動監督とヒューマン・イン・ザ・ループフィードバックの組み合わせ
- Authors: Wenpeng Yin, Shelby Heinecke, Jia Li, Nitish Shirish Keskar, Michael
Jones, Shouzhong Shi, Stanislav Georgiev, Kurt Milich, Joseph Esposito,
Caiming Xiong
- Abstract要約: 同一人物を表すデータポイントを特定し、統合するモデルを構築します。
このケーススタディでは、トレーニング・プロダクション性能のばらつきを解消するために、私たちのHuman-in-the-loopを有効にした、データ中心のソリューションについて論じる。
- 参考スコア(独自算出の注目度): 47.90125404360125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The distribution gap between training datasets and data encountered in
production is well acknowledged. Training datasets are often constructed over a
fixed period of time and by carefully curating the data to be labeled. Thus,
training datasets may not contain all possible variations of data that could be
encountered in real-world production environments. Tasked with building an
entity resolution system - a model that identifies and consolidates data points
that represent the same person - our first model exhibited a clear
training-production performance gap. In this case study, we discuss our
human-in-the-loop enabled, data-centric solution to closing the
training-production performance divergence. We conclude with takeaways that
apply to data-centric learning at large.
- Abstract(参考訳): トレーニングデータセットとプロダクションで遭遇したデータとの分散ギャップはよく認識されている。
トレーニングデータセットは、ラベル付けされたデータを注意深くキュレートすることで、一定期間にわたって構築されることが多い。
したがって、トレーニングデータセットには、実運用環境で遭遇する可能性のあるデータのあらゆるバリエーションが含まれない可能性がある。
エンティティレゾリューションシステム(同じ人を表すデータポイントを識別し統合するモデル)の構築に携わった私たちの最初のモデルは、明確なトレーニングとプロダクションのパフォーマンスギャップを示しました。
このケーススタディでは、トレーニング・プロダクション性能のばらつきを解消するための、人間のループで有効でデータ中心のソリューションについて論じる。
私たちは、データ中心の学習全般に適用できる取り組みで締めくくります。
関連論文リスト
- Training Data Attribution for Diffusion Models [1.1733780065300188]
そこで本研究では,アンサンブルを用いて学習データが拡散モデルの出力にどのように影響するかを明らかにする新しい手法を提案する。
我々のアプローチでは、エンコードされたアンサンブル内の個々のモデルは、影響のあるトレーニング例の識別を可能にするために、訓練データ全体の分割を慎重に設計した上で訓練される。
得られたモデルアンサンブルは、トレーニングデータの影響の効率的なアブレーションを可能にし、トレーニングデータがモデル出力に与える影響を評価する。
論文 参考訳(メタデータ) (2023-06-03T18:36:12Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。
種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。
また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文 参考訳(メタデータ) (2020-03-18T07:55:49Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。