論文の概要: Fine-Grained Named Entities for Corona News
- arxiv url: http://arxiv.org/abs/2404.13439v1
- Date: Sat, 20 Apr 2024 18:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:00:27.522453
- Title: Fine-Grained Named Entities for Corona News
- Title(参考訳): コロナニュースのための微細粒状タンパク質
- Authors: Sefika Efeoglu, Adrian Paschke,
- Abstract要約: 本研究では,コロナニュース記事からトレーニングデータを生成するためのデータアノテーションパイプラインを提案する。
名前付きエンティティ認識モデルは、この注釈付きコーパスに基づいて訓練され、その後、ドメインの専門家によって手動で注釈付けされたテスト文で評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information resources such as newspapers have produced unstructured text data in various languages related to the corona outbreak since December 2019. Analyzing these unstructured texts is time-consuming without representing them in a structured format; therefore, representing them in a structured format is crucial. An information extraction pipeline with essential tasks -- named entity tagging and relation extraction -- to accomplish this goal might be applied to these texts. This study proposes a data annotation pipeline to generate training data from corona news articles, including generic and domain-specific entities. Named entity recognition models are trained on this annotated corpus and then evaluated on test sentences manually annotated by domain experts evaluating the performance of a trained model. The code base and demonstration are available at https://github.com/sefeoglu/coronanews-ner.git.
- Abstract(参考訳): 新聞などの情報資源は、2019年12月以降、コロナの流行に関連するさまざまな言語で、構造化されていないテキストデータを生み出している。
これらの非構造化テキストの分析は、構造化フォーマットで表現することなく、時間を要するため、構造化フォーマットで表現することが不可欠である。
この目標を達成するための重要なタスクであるエンティティタグ付けと関係抽出を備えた情報抽出パイプラインは、これらのテキストに適用できるかもしれない。
本研究では,ジェネリックおよびドメイン固有のエンティティを含むコロナニュース記事からトレーニングデータを生成するためのデータアノテーションパイプラインを提案する。
名前付きエンティティ認識モデルは、この注釈付きコーパスに基づいてトレーニングされ、訓練されたモデルの性能を評価するドメインの専門家によって手動で注釈付けされたテスト文に基づいて評価される。
コードベースとデモはhttps://github.com/sefeoglu/coronanews-ner.git.comで公開されている。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Text2Struct: A Machine Learning Pipeline for Mining Structured Data from
Text [4.709764624933227]
本稿では,エンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキストアノテーションスキーム、データ処理のトレーニング、機械学習の実装が含まれている。
データセットを拡張し、他の機械学習モデルを調べることで、パイプラインをさらに改善することが期待されている。
論文 参考訳(メタデータ) (2022-12-18T09:31:36Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - LUKE: Deep Contextualized Entity Representations with Entity-aware
Self-attention [37.111204321059084]
両方向変換器に基づく単語と実体の事前学習した文脈表現を提案する。
我々のモデルは、BERTのマスキング言語モデルに基づく新しい事前訓練タスクを用いて訓練される。
また,変換器の自己認識機構の拡張である自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-02T15:38:03Z) - Provenance for Linguistic Corpora Through Nanopublications [0.22940141855172028]
計算言語学の研究は、新しいツールや方法論を訓練し、テストするためのテキストコーパスに依存している。
注釈付き言語情報が多く存在するが、これらのコーパスは重要な手作業なしでは相互運用できないことが多い。
本稿では、イベントアノテートコーパスのケーススタディと、ナノパブリケーションの形で、より相互運用可能な新しいデータ表現を作成することで、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-11T11:30:30Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。