論文の概要: PSG: Prompt-based Sequence Generation for Acronym Extraction
- arxiv url: http://arxiv.org/abs/2111.14301v1
- Date: Mon, 29 Nov 2021 02:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 14:53:31.183347
- Title: PSG: Prompt-based Sequence Generation for Acronym Extraction
- Title(参考訳): PSG: 頭字語抽出のためのプロンプトに基づくシーケンス生成
- Authors: Bin Li, Fei Xia, Yixuan Weng, Xiusheng Huang, Bin Sun, Shutao Li
- Abstract要約: 頭字語抽出タスクのためのPrompt-based Sequence Generation (PSG) 手法を提案する。
具体的には、抽出した頭字語テキストを自動回帰でプロンプトするテンプレートを設計する。
生成した回答の位置を抽出する位置抽出アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 26.896811663334162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acronym extraction aims to find acronyms (i.e., short-forms) and their
meanings (i.e., long-forms) from the documents, which is important for
scientific document understanding (SDU@AAAI-22) tasks. Previous works are
devoted to modeling this task as a paragraph-level sequence labeling problem.
However, it lacks the effective use of the external knowledge, especially when
the datasets are in a low-resource setting. Recently, the prompt-based method
with the vast pre-trained language model can significantly enhance the
performance of the low-resourced downstream tasks. In this paper, we propose a
Prompt-based Sequence Generation (PSG) method for the acronym extraction task.
Specifically, we design a template for prompting the extracted acronym texts
with auto-regression. A position extraction algorithm is designed for
extracting the position of the generated answers. The results on the acronym
extraction of Vietnamese and Persian in a low-resource setting show that the
proposed method outperforms all other competitive state-of-the-art (SOTA)
methods.
- Abstract(参考訳): 頭字語抽出は、学術文書理解(SDU@AAAI-22)タスクにおいて重要な文書から頭字語(短文)とその意味(長文)を見つけることを目的としている。
以前の仕事は、このタスクを段落レベルのシーケンスラベリング問題としてモデル化することに専念している。
しかし、特にデータセットが低リソース環境にある場合、外部知識の効果的な利用は欠如している。
近年,大規模な事前学習型言語モデルを用いたプロンプトベース手法は,低リソースの下流タスクの性能を大幅に向上させることができる。
本稿では,頭字語抽出タスクのための Prompt-based Sequence Generation (PSG) 手法を提案する。
具体的には,抽出された頭字語テキストを自動応答で促すテンプレートをデザインする。
生成した回答の位置を抽出する位置抽出アルゴリズムを設計する。
低資源環境でのベトナム語とペルシャ語の頭字語抽出の結果,提案手法は,他のSOTA法よりも優れていた。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective
Augmentation [61.53695868960846]
テキスト内統合に先立って,検索した文書をテキスト要約に圧縮する手法を提案する。
これにより、計算コストを削減できるだけでなく、長期検索された文書の関連情報を識別する上で、LMの負担を軽減できる。
本研究では,あるLMに対して訓練した圧縮機を言語モデリングタスク上で他のLMに転送し,検索した文書にほぼ忠実な要約を提供することを示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:36Z) - EntropyRank: Unsupervised Keyphrase Extraction via Side-Information
Optimization for Language Model-based Text Compression [62.261476176242724]
本稿では,事前学習言語モデル(LM)とシャノンの情報に基づいて,テキストからキーワードやキーワードを抽出する教師なし手法を提案する。
具体的には,LMの条件エントロピーが最も高い句を抽出する。
論文 参考訳(メタデータ) (2023-08-25T14:23:40Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - Prompt-based Text Entailment for Low-Resource Named Entity Recognition [21.017890579840145]
低リソースなエンティティ認識のためのPTE(Prompt-based Text Entailment)を提案する。
提案手法は,CoNLL03データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-11-06T06:13:38Z) - An Ensemble Approach to Acronym Extraction using Transformers [7.88595796865485]
頭字語は、文中の句の初期成分を用いて構築された句の省略単位である。
本稿では,アクロニム抽出の課題に対するアンサンブルアプローチについて論じる。
論文 参考訳(メタデータ) (2022-01-09T14:49:46Z) - CABACE: Injecting Character Sequence Information and Domain Knowledge
for Enhanced Acronym and Long-Form Extraction [0.0]
本稿では,ACronym extract のための CABACE: Character-Aware BERT を提案する。
テキスト中の文字列を考慮に入れ、マスキング言語モデリングによって科学的および法的領域に適応する。
提案手法は,ノンイングリッシュ言語へのゼロショット一般化のためのベースラインモデルよりも適していることを示す。
論文 参考訳(メタデータ) (2021-12-25T14:03:09Z) - BERT-based Acronym Disambiguation with Multiple Training Strategies [8.82012912690778]
Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。
BERTと動的負のサンプル選択を含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。
SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationのスコアが1位となった。
論文 参考訳(メタデータ) (2021-02-25T05:40:21Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Extraction of Templates from Phrases Using Sequence Binary Decision
Diagrams [3.867363075280544]
本稿では、SeqBDD(Sequence Binary Decision Diagram)の緩和版を用いて、タグ付きテキストのみからテンプレートを抽出するための教師なしアプローチを提案する。
本論文の主な貢献はSeqBDD構築アルゴリズムの緩和形式であり、少量のデータから一般的な表現を作成できる。
実験の結果,ソーシャルメディアからの短いメッセージからコーパスやフレーズテンプレートから動詞+前置テンプレートをベースとしたタスクを高品質に抽出できることがわかった。
論文 参考訳(メタデータ) (2020-01-28T05:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。