論文の概要: Reddit Entity Linking Dataset
- arxiv url: http://arxiv.org/abs/2101.01228v2
- Date: Thu, 25 Feb 2021 17:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 00:29:23.302270
- Title: Reddit Entity Linking Dataset
- Title(参考訳): Reddit Entity Linking Dataset
- Authors: Nicholas Botzer, Yifan Ding, Tim Weninger
- Abstract要約: Redditから17,316のリンクエンティティを含むエンティティリンクデータセットを公開しています。
注釈者による異なる誤りや不一致を分析し、生データに対する3種類の修正を提案する。
- 参考スコア(独自算出の注目度): 10.427125361534966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce and make publicly available an entity linking dataset from
Reddit that contains 17,316 linked entities, each annotated by three human
annotators and then grouped into Gold, Silver, and Bronze to indicate
inter-annotator agreement. We analyze the different errors and disagreements
made by annotators and suggest three types of corrections to the raw data.
Finally, we tested existing entity linking models that are trained and tuned on
text from non-social media datasets. We find that, although these existing
entity linking models perform very well on their original datasets, they
perform poorly on this social media dataset. We also show that the majority of
these errors can be attributed to poor performance on the mention detection
subtask. These results indicate the need for better entity linking models that
can be applied to the enormous amount of social media text.
- Abstract(参考訳): 我々は,3人のアノテータによってアノテートされ,金,銀,青銅にグループ化され,アノテータ間の合意を示す,17,316個のリンクされたエンティティを含むredditのデータセットを紹介,公開する。
注釈者による異なる誤りや不一致を分析し、生データに対する3種類の修正を提案する。
最後に、非社会的メディアデータセットからのテキストに基づいてトレーニングおよびチューニングされた既存のエンティティリンクモデルをテストする。
既存のエンティティリンクモデルは、オリジナルのデータセットで非常によく機能するが、このソーシャルメディアデータセットではパフォーマンスが悪いことが分かりました。
また,これらのエラーの大部分は,参照検出サブタスクの性能低下によるものであることを示す。
これらの結果は、膨大な量のソーシャルメディアテキストに適用可能な、より良いエンティティリンクモデルの必要性を示している。
関連論文リスト
- Towards Better Graph-based Cross-document Relation Extraction via Non-bridge Entity Enhancement and Prediction Debiasing [30.204313638661255]
文書間関係抽出は,異なる文書に存在する対象エンティティ間の関係を予測することを目的としている。
本稿では,非ブリッジエンティティ拡張と予測バイアスを用いたグラフベースのクロスドキュメントREモデルを提案する。
論文 参考訳(メタデータ) (2024-06-24T11:08:28Z) - GraLMatch: Matching Groups of Entities with Graphs and Language Models [35.75564019239946]
本稿では,エンドツーエンドのEntity Matching問題を提案する。
目標は、複数のデータソースから派生したレコードであるが、同じ現実世界のエンティティを表す、同じグループに割り当てることである。
擬似正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正
論文 参考訳(メタデータ) (2024-06-21T09:44:16Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Improving Factual Consistency in Summarization with Compression-Based
Post-Editing [146.24839415743358]
この問題に対処するためのモデルに依存しない方法は、生成された要約を後編集することであることを示す。
本稿では,文圧縮データを用いて後編集モデルを訓練し,特別なトークンでマークされた外在的エンティティエラーを要約する手法を提案する。
我々は,このモデルがROUGEを維持しながら事実整合性を向上し,XSum上でのエンティティ精度を最大30%向上し,他のポストエディタ上でも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-11T13:35:38Z) - Building Inspection Toolkit: Unified Evaluation and Strong Baselines for
Damage Recognition [0.0]
損傷認識の分野において、関連するオープンソースデータセットを含むデータハブを簡易に使用するためのビルディングインスペクションツールキット -- bikit -- を紹介します。
データセットには評価分割と事前定義されたメトリクスが組み込まれており、特定のタスクとそのデータ分布に適合する。
この領域の研究者のモチベーションを高めるために、私たちはリーダーボードとモデルの重みをコミュニティと共有する可能性も提供します。
論文 参考訳(メタデータ) (2022-02-14T20:05:59Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Clustering-based Inference for Biomedical Entity Linking [40.78384867437563]
本稿では,リンク決定を知識ベースエンティティにリンクするだけでなく,クラスタリングを通じて複数の言及をまとめてグループ化し,リンク予測を共同で行うモデルを提案する。
公開可能な最大のバイオメディカルデータセットの実験では、エンティティリンクの最良の独立予測を3.0ポイント精度で改善する。
論文 参考訳(メタデータ) (2020-10-21T19:16:27Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Improving Entity Linking by Modeling Latent Entity Type Information [25.33342677359822]
本稿では,事前学習したBERTに基づいて,潜在エンティティの型情報をエンティティ埋め込みに注入することを提案する。
さらに、BERTに基づくエンティティ類似度スコアを最先端モデルのローカルコンテキストモデルに統合し、潜在エンティティの型情報をよりよくキャプチャする。
我々のモデルは、標準ベンチマーク(AIDA-CoNLL)における最先端エンティティリンクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-01-06T09:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。