論文の概要: The Person Index Challenge: Extraction of Persons from Messy, Short
Texts
- arxiv url: http://arxiv.org/abs/2011.07990v1
- Date: Mon, 16 Nov 2020 14:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:15:59.719359
- Title: The Person Index Challenge: Extraction of Persons from Messy, Short
Texts
- Title(参考訳): person index challenge: 乱雑で短いテキストからの人物の抽出
- Authors: Markus Schr\"oder, Christian Jilek, Michael Schulze, Andreas Dengel
- Abstract要約: 本稿では,教師なしのアルゴリズムが,短いテキストから人文インデックスを構築できるかどうかを問う。
個人インデックスを、個人を名前で明確に分類する構造化表として定義する。
将来の研究のために、ソースコードが公開されている。
- 参考スコア(独自算出の注目度): 3.883984493622102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When persons are mentioned in texts with their first name, last name and/or
middle names, there can be a high variation which of their names are used, how
their names are ordered and if their names are abbreviated. If multiple persons
are mentioned consecutively in very different ways, especially short texts can
be perceived as "messy". Once ambiguous names occur, associations to persons
may not be inferred correctly. Despite these eventualities, in this paper we
ask how well an unsupervised algorithm can build a person index from short
texts. We define a person index as a structured table that distinctly catalogs
individuals by their names. First, we give a formal definition of the problem
and describe a procedure to generate ground truth data for future evaluations.
To give a first solution to this challenge, a baseline approach is implemented.
By using our proposed evaluation strategy, we test the performance of the
baseline and suggest further improvements. For future research the source code
is publicly available.
- Abstract(参考訳): ファーストネーム、ラストネーム、ミドルネームのテキストで言及される場合、どの名前が使われているか、どのように名前が順序付けされ、その名前が省略されているかなど、多種多様である。
複数の人が全く異なる方法で連続して言及される場合、特に短いテキストは「メッシー」と認識される。
ひとたび曖昧な名前が発生すると、人との関連性は正しく推測されない。
これらの結果にもかかわらず、本論文では教師なしのアルゴリズムがいかに短いテキストから人格を作成できるかを問う。
個人インデックスを、個人を名前で明確に分類する構造化表として定義する。
まず,この問題を形式的に定義し,今後の評価のための真理データを生成する手順について述べる。
この課題に対する最初のソリューションを提供するために、ベースラインアプローチが実装されている。
提案した評価戦略を用いて,ベースラインの性能を検証し,さらなる改善を提案する。
将来の研究のために、ソースコードが公開されている。
関連論文リスト
- UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity [50.91030850662369]
既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。
これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。
我々は,超微細な人物検索のためにtextbfUFineBench という新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2023-12-06T11:50:14Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Keyword Embeddings for Query Suggestion [3.7900158137749322]
本稿では,科学文献に基づいて学習したキーワード提案タスクのための2つの新しいモデルを提案する。
我々の手法はWord2VecとFastTextのアーキテクチャに適応し、文書のキーワード共起を利用してキーワード埋め込みを生成する。
我々は,タスクのベースラインよりも大幅に改善された,最先端の単語と文の埋め込みモデルに対する提案を評価した。
論文 参考訳(メタデータ) (2023-01-19T11:13:04Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Seq-2-Seq based Refinement of ASR Output for Spoken Name Capture [16.820137311298172]
発声者の発声者から人名を抽出する手法を提案する。
そこで本研究では,スペル修正や不規則除去,テキスト正規化などの作業から着想を得た軽量なSeq-2-Seqシステムを提案する。
論文 参考訳(メタデータ) (2022-03-29T18:04:51Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z) - Re-ranking for Writer Identification and Writer Retrieval [8.53463698903858]
我々は,k-相反的近傍関係に基づく再ランクステップが,著者識別に有利であることを示す。
これらの相互関係は、もともと提案されたような新しいベクトルにエンコードするか、クエリ拡張の観点でそれらを統合するかの2つの方法で利用します。
論文 参考訳(メタデータ) (2020-07-14T15:21:17Z) - How Does That Sound? Multi-Language SpokenName2Vec Algorithm Using
Speech Generation and Deep Learning [4.769747792846004]
SpokenName2Vecは、同様の名前提案問題に対処する、新しくて汎用的なアプローチである。
提案手法は25万のフォアネームからなる大規模データセット上で実証された。
提案手法の性能は,本研究で評価した他の10種類のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-24T20:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。