論文の概要: Atypical lexical abbreviations identification in Russian medical texts
- arxiv url: http://arxiv.org/abs/2206.01987v1
- Date: Sat, 4 Jun 2022 13:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 08:43:10.863721
- Title: Atypical lexical abbreviations identification in Russian medical texts
- Title(参考訳): ロシア医学文献における非典型的語彙略語識別
- Authors: Anna Berdichevskaia (NUST "MISiS")
- Abstract要約: そこで我々は,ロシア語テキストの省略を識別する,効率的なMLベースのアルゴリズムを提案する。
この方法は、ROC AUCスコア0.926とF1スコア0.706を達成し、競合性が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Abbreviation is a method of word formation that aims to construct the
shortened term from the first letters of the initial phrase. Implicit
abbreviations frequently cause the comprehension difficulties for unprepared
readers. In this paper, we propose an efficient ML-based algorithm which allows
to identify the abbreviations in Russian texts. The method achieves ROC AUC
score 0.926 and F1 score 0.706 which are confirmed as competitive in comparison
with the baselines. Along with the pipeline, we also establish first to our
knowledge Russian dataset that is relevant for the desired task.
- Abstract(参考訳): 短縮は、最初の句の最初の文字から短縮語を構築することを目的とした単語形成の方法である。
暗黙の略語はしばしば未準備の読者にとって理解の難しさを引き起こす。
本稿では,ロシア語テキストの省略を識別する,効率的なMLベースのアルゴリズムを提案する。
ROC AUCスコア0.926とF1スコア0.706は、ベースラインと比較して競争力がある。
パイプラインに加えて、私たちはまず、必要なタスクに関連する知識のロシアデータセットを確立します。
関連論文リスト
- SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Dealing with Abbreviations in the Slovenian Biographical Lexicon [2.0810096547938164]
省略は、トークン化や語彙外エラーを引き起こすため、NLPシステムにとって大きな課題となる。
そこで本研究では,テキスト中のドメイン固有省略量の高密度化に起因する問題に対処する手法を提案する。
論文 参考訳(メタデータ) (2022-11-04T13:09:02Z) - Token Classification for Disambiguating Medical Abbreviations [0.0]
省略は避けられないが、医療テキストの重要な部分である。
標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
論文 参考訳(メタデータ) (2022-10-05T18:06:49Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - ADBCMM : Acronym Disambiguation by Building Counterfactuals and
Multilingual Mixing [25.073319354895055]
本稿では,ADBCMMと命名された頭字語曖昧化のための新しい手法を提案する。
反事実と多言語混合を構築することで、低リソース言語の性能を大幅に向上させることができる。
SDU@AAAI-22 - Shared Task 2: Acronym Disambiguationでは、提案手法がフランス語とスペイン語で1位を獲得した。
論文 参考訳(メタデータ) (2021-12-08T15:08:27Z) - Structured abbreviation expansion in context [12.000998471674649]
我々は,短縮メッセージの正規化および拡張バージョンを回復するために,文脈内でのアドホック略語を逆転させる作業を検討する。
この問題は、アドホックの略語が意図的であり、元の単語とはかなり異なる可能性があるという点において、綴りの修正とは関係があるが、異なるものである。
論文 参考訳(メタデータ) (2021-10-04T01:22:43Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Acronym Identification and Disambiguation Shared Tasks for Scientific
Document Understanding [41.63345823743157]
頭字語は、文章でよく使われる長いフレーズの短い形です。
すべてのテキスト理解ツールは、テキストの頭字語を認識することができるはずです。
本研究の方向性を推し進めるため,学術文献における頭字語識別と頭字語曖昧化の2つのタスクを編成した。
論文 参考訳(メタデータ) (2020-12-22T00:29:15Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。