論文の概要: Automatic Section Recognition in Obituaries
- arxiv url: http://arxiv.org/abs/2002.12699v1
- Date: Fri, 28 Feb 2020 13:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:12:54.972089
- Title: Automatic Section Recognition in Obituaries
- Title(参考訳): 被検者における自動区切り認識
- Authors: Valentino Sabbatino and Laura Bostan and Roman Klinger
- Abstract要約: 本稿では, 死亡率の区分を識別する統計モデルを提案する。
TheDaily Item, Remembering.CA および The London Free Press から20058人の英国人死亡者のコーパスを収集する。
自動セグメンテーションタスクとして計算された畳み込みニューラルネットワークは、単語の袋よりも優れています。
- 参考スコア(独自算出の注目度): 10.536415845097661
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Obituaries contain information about people's values across times and
cultures, which makes them a useful resource for exploring cultural history.
They are typically structured similarly, with sections corresponding to
Personal Information, Biographical Sketch, Characteristics, Family, Gratitude,
Tribute, Funeral Information and Other aspects of the person. To make this
information available for further studies, we propose a statistical model which
recognizes these sections. To achieve that, we collect a corpus of 20058
English obituaries from TheDaily Item, Remembering.CA and The London Free
Press. The evaluation of our annotation guidelines with three annotators on
1008 obituaries shows a substantial agreement of Fleiss k = 0.87. Formulated as
an automatic segmentation task, a convolutional neural network outperforms
bag-of-words and embedding-based BiLSTMs and BiLSTM-CRFs with a micro F1 =
0.81.
- Abstract(参考訳): 博物館には時代や文化にまたがる人々の価値観に関する情報が含まれており、文化史を探求するのに有用な資料となっている。
それらは典型的には同様に構成されており、人物の個人情報、伝記のスケッチ、特徴、家族、グレート、トリビュート、葬送情報、その他の側面に対応している。
この情報をさらなる研究に活用するために,これらのセクションを識別する統計モデルを提案する。
そこで我々は,20058人の英国人死亡者のコーパスを,TheDaily Item, Remembering.CA,The London Free Pressから収集した。
1008検体にアノテーター3名によるガイドラインの評価は,Fleiss k = 0.87の相当な一致を示した。
自動セグメンテーションタスクとして評価され、畳み込みニューラルネットワークは、マイクロF1 = 0.81で、単語のバッグや埋め込みベースのBiLSTM、BiLSTM-CRFより優れている。
関連論文リスト
- Leveraging deep active learning to identify low-resource mobility
functioning information in public clinical notes [0.157286095422595]
国際機能・障害・健康分類(ICF)のモビリティ領域に関する最初の公開アノテートデータセット
我々はNational NLP Clinical Challenges (n2c2) 研究データセットを用いてキーワード拡張を用いた候補文のプールを構築する。
最終的なデータセットは,5,511のアクションエンティティ,5,328のモビリティエンティティ,306のアシストエンティティ,639の量子化エンティティを含む,合計11,784のエンティティからなる4,265の文で構成されています。
論文 参考訳(メタデータ) (2023-11-27T15:53:11Z) - HuBERTopic: Enhancing Semantic Representation of HuBERT through
Self-supervision Utilizing Topic Model [62.995175485416]
本稿では,HuBERTのセマンティック表現を豊かにするための新しいアプローチを提案する。
トピックラベルを教師として使用することにより、HuBERTに補助的なトピック分類タスクを追加する。
実験の結果,本手法は,ほとんどのタスクにおいて,ベースラインと同等あるいは優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-06T02:19:09Z) - Zero-shot Learning with Minimum Instruction to Extract Social
Determinants and Family History from Clinical Notes using GPT Model [4.72294159722118]
本研究は, ゼロショット学習による情報抽出に焦点をあてる。
我々は、人口統計学、様々な社会的決定要因、家族史情報に注釈を付けた非特定実世界の臨床ノートを利用する。
以上の結果から, GPT-3.5法は, 集団抽出では平均0.975 F1, 社会要因抽出では0.615 F1, 家族歴抽出では0.722 F1を達成できた。
論文 参考訳(メタデータ) (2023-09-11T14:16:27Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - Wikibio: a Semantic Resource for the Intersectional Analysis of
Biographical Events [3.8455936323976694]
文献的事象検出のための新しいコーパスを提示する。
このモデルでは、Fスコア0.808のバイオグラフィーでターゲットエンティリティのすべての言及を検出することができた。
また、ウィキペディアの伝記の中で、女性と非西洋人の偏見の分析にも使用された。
論文 参考訳(メタデータ) (2023-06-15T20:59:37Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - SegViz: A Federated Learning Framework for Medical Image Segmentation
from Distributed Datasets with Different and Incomplete Annotations [3.6704226968275258]
分散医用画像セグメンテーションデータセットから知識を集約する学習フレームワークであるSegVizを開発した。
SegVizは、両方のノードから知識を収集する肝臓と脾臓の両方をセグメント化できるモデルを構築するように訓練された。
以上の結果から,SegVizは臨床的に翻訳可能なマルチタスクセグメンテーションモデルのトレーニングに向けた重要な第一歩であることが示された。
論文 参考訳(メタデータ) (2023-01-17T18:36:57Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。