論文の概要: Atypical lexical abbreviations identification in Russian medical texts
- arxiv url: http://arxiv.org/abs/2206.01987v1
- Date: Sat, 4 Jun 2022 13:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 08:43:10.863721
- Title: Atypical lexical abbreviations identification in Russian medical texts
- Title(参考訳): ロシア医学文献における非典型的語彙略語識別
- Authors: Anna Berdichevskaia (NUST "MISiS")
- Abstract要約: そこで我々は,ロシア語テキストの省略を識別する,効率的なMLベースのアルゴリズムを提案する。
この方法は、ROC AUCスコア0.926とF1スコア0.706を達成し、競合性が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Abbreviation is a method of word formation that aims to construct the
shortened term from the first letters of the initial phrase. Implicit
abbreviations frequently cause the comprehension difficulties for unprepared
readers. In this paper, we propose an efficient ML-based algorithm which allows
to identify the abbreviations in Russian texts. The method achieves ROC AUC
score 0.926 and F1 score 0.706 which are confirmed as competitive in comparison
with the baselines. Along with the pipeline, we also establish first to our
knowledge Russian dataset that is relevant for the desired task.
- Abstract(参考訳): 短縮は、最初の句の最初の文字から短縮語を構築することを目的とした単語形成の方法である。
暗黙の略語はしばしば未準備の読者にとって理解の難しさを引き起こす。
本稿では,ロシア語テキストの省略を識別する,効率的なMLベースのアルゴリズムを提案する。
ROC AUCスコア0.926とF1スコア0.706は、ベースラインと比較して競争力がある。
パイプラインに加えて、私たちはまず、必要なタスクに関連する知識のロシアデータセットを確立します。
関連論文リスト
- Evaluating and Improving ChatGPT-Based Expansion of Abbreviations [6.900119856872516]
大規模言語モデル(LLM)に基づく略語拡張に関する最初の実証的研究について述べる。
以上の結果から,ChatGPTは最先端のアプローチよりも精度が低いことが示唆された。
最初の原因として, 様々な文脈の影響を調査し, 周辺ソースコードが最適選択であることを確認した。
論文 参考訳(メタデータ) (2024-10-31T12:20:24Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Dealing with Abbreviations in the Slovenian Biographical Lexicon [2.0810096547938164]
省略は、トークン化や語彙外エラーを引き起こすため、NLPシステムにとって大きな課題となる。
そこで本研究では,テキスト中のドメイン固有省略量の高密度化に起因する問題に対処する手法を提案する。
論文 参考訳(メタデータ) (2022-11-04T13:09:02Z) - Token Classification for Disambiguating Medical Abbreviations [0.0]
省略は避けられないが、医療テキストの重要な部分である。
標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
論文 参考訳(メタデータ) (2022-10-05T18:06:49Z) - Structured abbreviation expansion in context [12.000998471674649]
我々は,短縮メッセージの正規化および拡張バージョンを回復するために,文脈内でのアドホック略語を逆転させる作業を検討する。
この問題は、アドホックの略語が意図的であり、元の単語とはかなり異なる可能性があるという点において、綴りの修正とは関係があるが、異なるものである。
論文 参考訳(メタデータ) (2021-10-04T01:22:43Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。