論文の概要: (Almost) All of Entity Resolution
- arxiv url: http://arxiv.org/abs/2008.04443v3
- Date: Mon, 17 Jan 2022 21:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 23:31:12.070254
- Title: (Almost) All of Entity Resolution
- Title(参考訳): ほとんど)すべてのエンティティ解決
- Authors: Olivier Binette and Rebecca C. Steorts
- Abstract要約: 我々は,この領域の成長に繋がったモチベーション的応用とセミナル論文をレビューする。
本稿では,クラスタリング手法の実体的半教師あり手法と完全教師あり手法について概観する。
実践的重要性に関する最近の研究課題について論じる。
- 参考スコア(独自算出の注目度): 6.497816402045099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether the goal is to estimate the number of people that live in a
congressional district, to estimate the number of individuals that have died in
an armed conflict, or to disambiguate individual authors using bibliographic
data, all these applications have a common theme - integrating information from
multiple sources. Before such questions can be answered, databases must be
cleaned and integrated in a systematic and accurate way, commonly known as
record linkage, de-duplication, or entity resolution. In this article, we
review motivational applications and seminal papers that have led to the growth
of this area. Specifically, we review the foundational work that began in the
1940's and 50's that have led to modern probabilistic record linkage. We review
clustering approaches to entity resolution, semi- and fully supervised methods,
and canonicalization, which are being used throughout industry and academia in
applications such as human rights, official statistics, medicine, citation
networks, among others. Finally, we discuss current research topics of
practical importance.
- Abstract(参考訳): 目標は、議会地区に住む人々の数を見積もること、武力紛争で死亡した個人数を見積もること、あるいは書誌データを使って個々の著者を曖昧さから遠ざけること、いずれのアプリケーションも、複数のソースからの情報を統合するという共通のテーマを持っています。
このような疑問に答える前に、データベースを整理し、体系的かつ正確な方法で統合する必要がある。
本稿では,この領域の成長に繋がったモチベーション的応用とセミナル論文について概観する。
具体的には,1940年代から50年代にかけて始まった,現代の確率論的記録リンクに繋がる基礎研究について概観する。
本稿では, 人権, 公式統計, 医学, 引用ネットワークなどの応用において, 産業全体および学界で使用されている, エンティティ解決, 半教師あり手法, 標準化へのクラスタリングアプローチについて検討する。
最後に,本研究の実践的重要性について論じる。
関連論文リスト
- Advancing Crime Linkage Analysis with Machine Learning: A Comprehensive Review and Framework for Data-Driven Approaches [0.0]
犯罪リンケージ(英: Crime linkage)とは、犯罪行為データを分析して、一対または一対の犯罪事件が一連の犯罪に関係しているかどうかを判断する過程である。
本研究の目的は,犯罪リンクにおける機械学習アプローチが直面する課題を理解し,将来的なデータ駆動手法の基盤知識を支援することである。
論文 参考訳(メタデータ) (2024-10-30T18:22:45Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - State-of-the-art generalisation research in NLP: A taxonomy and review [87.1541712509283]
NLPにおける一般化研究の特徴付けと理解のための分類法を提案する。
我々の分類学は、一般化研究の広範な文献レビューに基づいている。
私たちは、一般化をテストする400以上の論文を分類するために分類を使います。
論文 参考訳(メタデータ) (2022-10-06T16:53:33Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Domain Generalization: A Survey [146.68420112164577]
ドメイン一般化(DG)は、モデル学習にソースドメインデータを使用するだけでOOD一般化を実現することを目的としています。
初めて、DGの10年の開発をまとめるために包括的な文献レビューが提供されます。
論文 参考訳(メタデータ) (2021-03-03T16:12:22Z) - Automatic generation of reviews of scientific papers [1.1999555634662633]
本稿では,ユーザ定義クエリに対応するレビューペーパーの自動生成手法を提案する。
第1部では、共引用グラフなどの文献パラメータによって、この領域における重要な論文を識別する。
第2段階では、BERTベースのアーキテクチャを使用して、これらの重要な論文の抽出要約のために既存のレビューをトレーニングします。
論文 参考訳(メタデータ) (2020-10-08T17:47:07Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media [0.05277024349608833]
デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
論文 参考訳(メタデータ) (2020-04-06T17:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。