論文の概要: A Case Study on Pros and Cons of Regular Expression Detection and
Dependency Parsing for Negation Extraction from German Medical Documents.
Technical Report
- arxiv url: http://arxiv.org/abs/2105.09702v1
- Date: Thu, 20 May 2021 12:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:38:47.769422
- Title: A Case Study on Pros and Cons of Regular Expression Detection and
Dependency Parsing for Negation Extraction from German Medical Documents.
Technical Report
- Title(参考訳): ドイツ医学文献からの否定抽出のための正規表現検出と依存解析の意義と問題点に関する事例研究
技術報告
- Authors: Hans-J\"urgen Profitlich and Daniel Sonntag
- Abstract要約: ドイツ語で書かれた医学文書における情報抽出に関する研究について述べる。
我々は,大量のトリガをベースラインとして,NegEx正規表現アルゴリズムのバージョンを用いる。
同様の結果を得るのに、はるかに小さなトリガーセットが十分であることを示す。
- 参考スコア(独自算出の注目度): 2.2869267883760287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our work on information extraction in medical documents written
in German, especially detecting negations using an architecture based on the
UIMA pipeline. Based on our previous work on software modules to cover medical
concepts like diagnoses, examinations, etc. we employ a version of the NegEx
regular expression algorithm with a large set of triggers as a baseline. We
show how a significantly smaller trigger set is sufficient to achieve similar
results, in order to reduce adaptation times to new text types. We elaborate on
the question whether dependency parsing (based on the Stanford CoreNLP model)
is a good alternative and describe the potentials and shortcomings of both
approaches.
- Abstract(参考訳): ドイツ語で書かれた医療文書における情報抽出,特にUIMAパイプラインに基づくアーキテクチャを用いた否定の検出について述べる。
診断や検査などの医学的概念をカバーするソフトウェアモジュールに関するこれまでの作業に基づいています。
我々は,大量のトリガをベースラインとして,NegEx正規表現アルゴリズムのバージョンを用いる。
そこで本研究では,新しいテキストタイプへの適応時間を短縮するために,同様の結果を得るためにトリガーセットが大幅に小さくなることを示す。
依存関係解析(Stanford CoreNLPモデルに基づく)が優れた代替手段であるかどうか、両アプローチの可能性と欠点について詳しく説明する。
関連論文リスト
- Analysing the Impact of Removing Infrequent Words on Topic Quality in
LDA Models [0.0]
本稿では,低頻度単語の除去が,遅延ディリクレ割当を用いて推定したトピックの品質に与える影響について検討する。
その結果, 刈り取りは有益であり, 取り除かれる可能性のある語彙のシェアは極めて大きいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T14:20:12Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - Idioms, Probing and Dangerous Things: Towards Structural Probing for
Idiomaticity in Vector Space [2.5288257442251107]
本研究の目的は, 埋め込まれた慣用的な情報がどのように構造的にコード化されているか, より深く知ることである。
静的 (GloVe) とコンテキスト埋め込み (BERT) の比較検討を行った。
実験の結果,慣用性がベクトルノルムに符号化されているかどうかの矛盾する証拠が得られた。
論文 参考訳(メタデータ) (2023-04-27T17:06:20Z) - Document Flattening: Beyond Concatenating Context for Document-Level
Neural Machine Translation [45.56189820979461]
Document Flattening(DocFlat)技術は、Flat-Batch Attention(FB)とNeural Context Gate(NCG)をTransformerモデルに統合する。
我々は、英語とドイツ語の翻訳のための3つのベンチマークデータセットに関する総合的な実験と分析を行う。
論文 参考訳(メタデータ) (2023-02-16T04:38:34Z) - Cross-lingual Argument Mining in the Medical Domain [5.9647924003148365]
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。