論文の概要: Dealing with Abbreviations in the Slovenian Biographical Lexicon
- arxiv url: http://arxiv.org/abs/2211.02429v1
- Date: Fri, 4 Nov 2022 13:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:34:35.559561
- Title: Dealing with Abbreviations in the Slovenian Biographical Lexicon
- Title(参考訳): Slovenian Biographical Lexiconにおける短縮術の適応
- Authors: Angel Daza, Antske Fokkens, Toma\v{z} Erjavec
- Abstract要約: 省略は、トークン化や語彙外エラーを引き起こすため、NLPシステムにとって大きな課題となる。
そこで本研究では,テキスト中のドメイン固有省略量の高密度化に起因する問題に対処する手法を提案する。
- 参考スコア(独自算出の注目度): 2.0810096547938164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abbreviations present a significant challenge for NLP systems because they
cause tokenization and out-of-vocabulary errors. They can also make the text
less readable, especially in reference printed books, where they are
extensively used. Abbreviations are especially problematic in low-resource
settings, where systems are less robust to begin with. In this paper, we
propose a new method for addressing the problems caused by a high density of
domain-specific abbreviations in a text. We apply this method to the case of a
Slovenian biographical lexicon and evaluate it on a newly developed
gold-standard dataset of 51 Slovenian biographies. Our abbreviation
identification method performs significantly better than commonly used ad-hoc
solutions, especially at identifying unseen abbreviations. We also propose and
present the results of a method for expanding the identified abbreviations in
context.
- Abstract(参考訳): 省略は、トークン化や語彙外エラーを引き起こすため、NLPシステムにとって大きな課題となる。
テキストの読みやすさを損なうこともでき、特に参照された書籍では広く使われている。
システムのロバストが低くなる低リソース設定では、略称が特に問題となる。
本稿では,テキスト中のドメイン固有の省略値の高密度化に起因する問題に対処する新しい手法を提案する。
本手法をスロベニアの伝記辞書に適用し,新たに開発された51枚のスロベニアの伝記の金標準データセット上で評価する。
略語識別法は,一般のアドホック解,特に見当たらない略語識別において有意に優れている。
また,認識された略語を文脈で拡張する手法の提案と提案を行った。
関連論文リスト
- Evaluating and Improving ChatGPT-Based Expansion of Abbreviations [6.900119856872516]
大規模言語モデル(LLM)に基づく略語拡張に関する最初の実証的研究について述べる。
以上の結果から,ChatGPTは最先端のアプローチよりも精度が低いことが示唆された。
最初の原因として, 様々な文脈の影響を調査し, 周辺ソースコードが最適選択であることを確認した。
論文 参考訳(メタデータ) (2024-10-31T12:20:24Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Token Classification for Disambiguating Medical Abbreviations [0.0]
省略は避けられないが、医療テキストの重要な部分である。
標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
論文 参考訳(メタデータ) (2022-10-05T18:06:49Z) - Atypical lexical abbreviations identification in Russian medical texts [0.0]
そこで我々は,ロシア語テキストの省略を識別する,効率的なMLベースのアルゴリズムを提案する。
この方法は、ROC AUCスコア0.926とF1スコア0.706を達成し、競合性が確認された。
論文 参考訳(メタデータ) (2022-06-04T13:16:08Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Structured abbreviation expansion in context [12.000998471674649]
我々は,短縮メッセージの正規化および拡張バージョンを回復するために,文脈内でのアドホック略語を逆転させる作業を検討する。
この問題は、アドホックの略語が意図的であり、元の単語とはかなり異なる可能性があるという点において、綴りの修正とは関係があるが、異なるものである。
論文 参考訳(メタデータ) (2021-10-04T01:22:43Z) - Handling Heavily Abbreviated Manuscripts: HTR engines vs text
normalisation approaches [0.0]
省略形は、手書きテキスト認識や自然言語処理タスクなどの計算手法に特に課題を示す。
我々は、HTRエンジンを正規化(拡張、短縮)されたテキストで訓練することで、直接的に、そのような正規化されたテキストを得るための異なる設定を探索する。
ケーススタディは中世ラテン語の伝統に由来する。
論文 参考訳(メタデータ) (2021-07-07T19:23:22Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。