論文の概要: Automated Extraction of Acronym-Expansion Pairs from Scientific Papers
- arxiv url: http://arxiv.org/abs/2412.01093v1
- Date: Mon, 02 Dec 2024 04:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:35.113141
- Title: Automated Extraction of Acronym-Expansion Pairs from Scientific Papers
- Title(参考訳): 学術論文からの頭字語拡大ペアの自動抽出
- Authors: Izhar Ali, Million Haileyesus, Serhiy Hnatyshyn, Jan-Lucas Ott, Vasil Hnatyshin,
- Abstract要約: このプロジェクトは、デジタルテキストにおける略語や頭字語の普及によって引き起こされる課題に対処する。
本稿では,文書前処理,正規表現,および大規模言語モデルを組み合わせて,省略を識別し,対応する拡張にマッピングする手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This project addresses challenges posed by the widespread use of abbreviations and acronyms in digital texts. We propose a novel method that combines document preprocessing, regular expressions, and a large language model to identify abbreviations and map them to their corresponding expansions. The regular expressions alone are often insufficient to extract expansions, at which point our approach leverages GPT-4 to analyze the text surrounding the acronyms. By limiting the analysis to only a small portion of the surrounding text, we mitigate the risk of obtaining incorrect or multiple expansions for an acronym. There are several known challenges in processing text with acronyms, including polysemous acronyms, non-local and ambiguous acronyms. Our approach enhances the precision and efficiency of NLP techniques by addressing these issues with automated acronym identification and disambiguation. This study highlights the challenges of working with PDF files and the importance of document preprocessing. Furthermore, the results of this work show that neither regular expressions nor GPT-4 alone can perform well. Regular expressions are suitable for identifying acronyms but have limitations in finding their expansions within the paper due to a variety of formats used for expressing acronym-expansion pairs and the tendency of authors to omit expansions within the text. GPT-4, on the other hand, is an excellent tool for obtaining expansions but struggles with correctly identifying all relevant acronyms. Additionally, GPT-4 poses challenges due to its probabilistic nature, which may lead to slightly different results for the same input. Our algorithm employs preprocessing to eliminate irrelevant information from the text, regular expressions for identifying acronyms, and a large language model to help find acronym expansions to provide the most accurate and consistent results.
- Abstract(参考訳): このプロジェクトは、デジタルテキストにおける略語や頭字語の普及によって引き起こされる課題に対処する。
本稿では,文書前処理,正規表現,および大規模言語モデルを組み合わせて,省略を識別し,対応する拡張にマッピングする手法を提案する。
正規表現だけでは拡張を抽出するには不十分な場合が多く,その時点ではGPT-4を用いて頭字語を取り巻くテキストを解析する。
分析を周辺テキストのごく一部に限定することにより、頭字語に対する誤りや複数の拡張のリスクを軽減することができる。
頭字語でテキストを処理するには、多文の頭字語、非局所的、曖昧な頭字語など、いくつかの既知の課題がある。
提案手法は,これらの問題を自動頭字語識別と曖昧さで解決することにより,NLP手法の精度と効率を向上させる。
本研究は,PDFファイルを扱う上での課題と文書前処理の重要性を明らかにする。
さらに,本研究の結果から,正規表現もGPT-4単独も良好に機能しないことが明らかとなった。
正規表現は、頭字語を識別するのに適しているが、頭字語と拡張のペアを表現するために使われる様々な形式や、著者がテキスト内の拡張を省略する傾向があるため、論文内での拡張を見つけるのに制限がある。
一方、GPT-4は拡張を得るのに優れたツールであるが、関連するすべての頭字語を正しく識別するのに苦労している。
さらに、GPT-4は確率的な性質のため、同じ入力に対してわずかに異なる結果をもたらす可能性がある。
提案アルゴリズムでは,テキストから無関係な情報を排除するための前処理,頭字語識別のための正規表現,および頭字語拡張を見つけるための大言語モデルを用いて,最も正確で一貫した結果を提供する。
関連論文リスト
- Evaluating and Improving ChatGPT-Based Expansion of Abbreviations [6.900119856872516]
大規模言語モデル(LLM)に基づく略語拡張に関する最初の実証的研究について述べる。
以上の結果から,ChatGPTは最先端のアプローチよりも精度が低いことが示唆された。
最初の原因として, 様々な文脈の影響を調査し, 周辺ソースコードが最適選択であることを確認した。
論文 参考訳(メタデータ) (2024-10-31T12:20:24Z) - ExpLLM: Towards Chain of Thought for Facial Expression Recognition [61.49849866937758]
本研究では,表情認識のための思考の正確な連鎖(CoT)を生成するExpLLMという新しい手法を提案する。
具体的には、重要な観察、全体的な感情解釈、結論の3つの観点から、CoTメカニズムを設計しました。
RAF-DBとAffectNetデータセットの実験では、ExpLLMは現在の最先端のFERメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-09-04T15:50:16Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - CABACE: Injecting Character Sequence Information and Domain Knowledge
for Enhanced Acronym and Long-Form Extraction [0.0]
本稿では,ACronym extract のための CABACE: Character-Aware BERT を提案する。
テキスト中の文字列を考慮に入れ、マスキング言語モデリングによって科学的および法的領域に適応する。
提案手法は,ノンイングリッシュ言語へのゼロショット一般化のためのベースラインモデルよりも適していることを示す。
論文 参考訳(メタデータ) (2021-12-25T14:03:09Z) - PSG: Prompt-based Sequence Generation for Acronym Extraction [26.896811663334162]
頭字語抽出タスクのためのPrompt-based Sequence Generation (PSG) 手法を提案する。
具体的には、抽出した頭字語テキストを自動回帰でプロンプトするテンプレートを設計する。
生成した回答の位置を抽出する位置抽出アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-29T02:14:38Z) - BERT-based Acronym Disambiguation with Multiple Training Strategies [8.82012912690778]
Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。
BERTと動的負のサンプル選択を含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。
SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationのスコアが1位となった。
論文 参考訳(メタデータ) (2021-02-25T05:40:21Z) - Acronym Identification and Disambiguation Shared Tasks for Scientific
Document Understanding [41.63345823743157]
頭字語は、文章でよく使われる長いフレーズの短い形です。
すべてのテキスト理解ツールは、テキストの頭字語を認識することができるはずです。
本研究の方向性を推し進めるため,学術文献における頭字語識別と頭字語曖昧化の2つのタスクを編成した。
論文 参考訳(メタデータ) (2020-12-22T00:29:15Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。