論文の概要: Disambiguation of Company names via Deep Recurrent Networks
- arxiv url: http://arxiv.org/abs/2303.05391v2
- Date: Sat, 15 Apr 2023 20:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 20:44:03.701282
- Title: Disambiguation of Company names via Deep Recurrent Networks
- Title(参考訳): ディープリカレントネットワークによる企業名の曖昧化
- Authors: Alessandro Basile, Riccardo Crupi, Michele Grasso, Alessandro
Mercanti, Daniele Regoli, Simone Scarsi, Shuyi Yang, Andrea Cosentini
- Abstract要約: 企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
- 参考スコア(独自算出の注目度): 101.90357454833845
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Name Entity Disambiguation is the Natural Language Processing task of
identifying textual records corresponding to the same Named Entity, i.e.
real-world entities represented as a list of attributes (names, places,
organisations, etc.). In this work, we face the task of disambiguating
companies on the basis of their written names. We propose a Siamese LSTM
Network approach to extract -- via supervised learning -- an embedding of
company name strings in a (relatively) low dimensional vector space and use
this representation to identify pairs of company names that actually represent
the same company (i.e. the same Entity).
Given that the manual labelling of string pairs is a rather onerous task, we
analyse how an Active Learning approach to prioritise the samples to be
labelled leads to a more efficient overall learning pipeline.
With empirical investigations, we show that our proposed Siamese Network
outperforms several benchmark approaches based on standard string matching
algorithms when enough labelled data are available. Moreover, we show that
Active Learning prioritisation is indeed helpful when labelling resources are
limited, and let the learning models reach the out-of-sample performance
saturation with less labelled data with respect to standard (random) data
labelling approaches.
- Abstract(参考訳): 名前の曖昧さ(英: Name Entity Disambiguation)とは、属性のリスト(名前、場所、組織など)として表される現実世界のエンティティである、同じ名前のエンティティに対応するテキストレコードを識別する自然言語処理タスクである。
本研究では,企業名を記載した上で,企業を曖昧にすることの課題に直面する。
本稿では,企業名列を(相対的に)低次元ベクトル空間に埋め込んで,同一企業(すなわち同一エンティティ)を実際に表わす企業名のペアを識別する,Siamese LSTM Networkアプローチを提案する。
文字列ペアの手動ラベリングがやや面倒な作業であることを考慮すると、ラベル付けされるサンプルを優先順位付けするアクティブな学習アプローチが、より効率的な学習パイプラインにつながるかを分析します。
経験的調査により,提案手法は,ラベル付きデータの利用が十分であれば,標準文字列マッチングアルゴリズムに基づくベンチマーク手法を上回ることを示した。
さらに,ラベリング資源が限られている場合,アクティブラーニングの優先順位付けが有効であることを示すとともに,標準(ランダム)データラベリングアプローチに対するラベル付きデータが少ない場合,サンプルのパフォーマンス飽和度を学習モデルに到達させる。
関連論文リスト
- Retrieval-Enhanced Named Entity Recognition [1.2187048691454239]
RENERは、In-Context Learningと情報検索技術に基づく自己回帰言語モデルを用いたエンティティ認識手法である。
実験の結果,CrossNERコレクションでは,提案手法を用いて最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-17T01:12:48Z) - Schema Matching with Large Language Models: an Experimental Study [0.580553237364985]
本稿では,市販のLarge Language Models (LLM) を用いてスキーママッチングを行う。
本研究の目的は,2つの関係スキーマの要素間の意味的対応を名前と記述のみを用いて識別することである。
論文 参考訳(メタデータ) (2024-07-16T15:33:00Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Author Name Disambiguation via Heterogeneous Network Embedding from
Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。
提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。
意味表現はNLPツールを使用して生成される。
論文 参考訳(メタデータ) (2022-12-24T11:22:34Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。