論文の概要: A Case Study on Pros and Cons of Regular Expression Detection and
Dependency Parsing for Negation Extraction from German Medical Documents.
Technical Report
- arxiv url: http://arxiv.org/abs/2105.09702v1
- Date: Thu, 20 May 2021 12:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:38:47.769422
- Title: A Case Study on Pros and Cons of Regular Expression Detection and
Dependency Parsing for Negation Extraction from German Medical Documents.
Technical Report
- Title(参考訳): ドイツ医学文献からの否定抽出のための正規表現検出と依存解析の意義と問題点に関する事例研究
技術報告
- Authors: Hans-J\"urgen Profitlich and Daniel Sonntag
- Abstract要約: ドイツ語で書かれた医学文書における情報抽出に関する研究について述べる。
我々は,大量のトリガをベースラインとして,NegEx正規表現アルゴリズムのバージョンを用いる。
同様の結果を得るのに、はるかに小さなトリガーセットが十分であることを示す。
- 参考スコア(独自算出の注目度): 2.2869267883760287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our work on information extraction in medical documents written
in German, especially detecting negations using an architecture based on the
UIMA pipeline. Based on our previous work on software modules to cover medical
concepts like diagnoses, examinations, etc. we employ a version of the NegEx
regular expression algorithm with a large set of triggers as a baseline. We
show how a significantly smaller trigger set is sufficient to achieve similar
results, in order to reduce adaptation times to new text types. We elaborate on
the question whether dependency parsing (based on the Stanford CoreNLP model)
is a good alternative and describe the potentials and shortcomings of both
approaches.
- Abstract(参考訳): ドイツ語で書かれた医療文書における情報抽出,特にUIMAパイプラインに基づくアーキテクチャを用いた否定の検出について述べる。
診断や検査などの医学的概念をカバーするソフトウェアモジュールに関するこれまでの作業に基づいています。
我々は,大量のトリガをベースラインとして,NegEx正規表現アルゴリズムのバージョンを用いる。
そこで本研究では,新しいテキストタイプへの適応時間を短縮するために,同様の結果を得るためにトリガーセットが大幅に小さくなることを示す。
依存関係解析(Stanford CoreNLPモデルに基づく)が優れた代替手段であるかどうか、両アプローチの可能性と欠点について詳しく説明する。
関連論文リスト
- Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications [5.266869303483375]
単語誤り率(WER)は自動音声認識(ASR)の精度の一般的な尺度である
本稿では,ロバストな WER を計算するために,拡張Levenshtein 距離アルゴリズムを用いた非破壊的トークンベース手法を提案する。
我々はまた、句読点誤り率などの派生したユースケースの例分析や、実装のインタラクティブな使用と可視化のためのWebアプリケーションも提供する。
論文 参考訳(メタデータ) (2024-08-28T08:14:51Z) - Adapting PromptORE for Modern History: Information Extraction from Hispanic Monarchy Documents of the XVIth Century [2.490441444378203]
本稿では,PmptOREを応用して,特殊文書,すなわちスペイン審問による裁判のデジタル写本から関係を抽出する手法を提案する。
提案手法では,予測を行うデータに対して,事前学習対象を持つトランスフォーマーモデルを微調整する。
その結果,Biased PromptOREモデルでは50%の精度向上が得られた。
論文 参考訳(メタデータ) (2024-05-24T13:39:47Z) - Analysing the Impact of Removing Infrequent Words on Topic Quality in
LDA Models [0.0]
本稿では,低頻度単語の除去が,遅延ディリクレ割当を用いて推定したトピックの品質に与える影響について検討する。
その結果, 刈り取りは有益であり, 取り除かれる可能性のある語彙のシェアは極めて大きいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T14:20:12Z) - Idioms, Probing and Dangerous Things: Towards Structural Probing for
Idiomaticity in Vector Space [2.5288257442251107]
本研究の目的は, 埋め込まれた慣用的な情報がどのように構造的にコード化されているか, より深く知ることである。
静的 (GloVe) とコンテキスト埋め込み (BERT) の比較検討を行った。
実験の結果,慣用性がベクトルノルムに符号化されているかどうかの矛盾する証拠が得られた。
論文 参考訳(メタデータ) (2023-04-27T17:06:20Z) - Document Flattening: Beyond Concatenating Context for Document-Level
Neural Machine Translation [45.56189820979461]
Document Flattening(DocFlat)技術は、Flat-Batch Attention(FB)とNeural Context Gate(NCG)をTransformerモデルに統合する。
我々は、英語とドイツ語の翻訳のための3つのベンチマークデータセットに関する総合的な実験と分析を行う。
論文 参考訳(メタデータ) (2023-02-16T04:38:34Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。