論文の概要: Keyword Extraction from Short Texts with~a~Text-To-Text Transfer
Transformer
- arxiv url: http://arxiv.org/abs/2209.14008v1
- Date: Wed, 28 Sep 2022 11:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:56:49.569770
- Title: Keyword Extraction from Short Texts with~a~Text-To-Text Transfer
Transformer
- Title(参考訳): a~Text-to-Textトランスを用いた短文からのキーワード抽出
- Authors: Piotr P\k{e}zik, Agnieszka Miko{\l}ajczyk-Bare{\l}a, Adam
Wawrzy\'nski, Bart{\l}omiej Nito\'n, Maciej Ogrodniczuk
- Abstract要約: 本稿では,ポーランド語におけるテキスト・テキスト・トランスフォーマ言語モデル(T5)の,短文文節からの内在的・外在的キーワード抽出作業との関連性について検討する。
plT5kw, extremeText, TermoPL, KeyBERT という4つの異なる手法で得られた結果を比較し, plT5kw モデルは, 頻繁かつ疎に表現されたキーワードに対して, 特に有望な結果をもたらすと結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper explores the relevance of the Text-To-Text Transfer Transformer
language model (T5) for Polish (plT5) to the task of intrinsic and extrinsic
keyword extraction from short text passages. The evaluation is carried out on
the new Polish Open Science Metadata Corpus (POSMAC), which is released with
this paper: a collection of 216,214 abstracts of scientific publications
compiled in the CURLICAT project. We compare the results obtained by four
different methods, i.e. plT5kw, extremeText, TermoPL, KeyBERT and conclude that
the plT5kw model yields particularly promising results for both frequent and
sparsely represented keywords. Furthermore, a plT5kw keyword generation model
trained on the POSMAC also seems to produce highly useful results in
cross-domain text labelling scenarios. We discuss the performance of the model
on news stories and phone-based dialog transcripts which represent text genres
and domains extrinsic to the dataset of scientific abstracts. Finally, we also
attempt to characterize the challenges of evaluating a text-to-text model on
both intrinsic and extrinsic keyword extraction.
- Abstract(参考訳): 本稿では,ポーランド語(plT5)のテキスト・テキスト・トランスフォーマー言語モデル(T5)と,短文文節からの内在的・外在的キーワード抽出の課題との関連について検討する。
本研究は,ポーランドの新オープンサイエンスメタデータ・コーパス (posmac) を用いて,curlicatプロジェクトでコンパイルされた科学出版物の216,214の要約を収集した。
plT5kw, extremeText, TermoPL, KeyBERT という4つの異なる手法で得られた結果を比較し,plT5kw モデルが頻繁かつ疎表現のキーワードに対して特に有望な結果をもたらすと結論付けた。
さらに、POSMACでトレーニングされたplT5kwキーワード生成モデルも、クロスドメインテキストラベリングシナリオにおいて非常に有用な結果をもたらすようだ。
本稿では,学術論文のデータセットに内在するテキストジャンルや領域を表す,ニュース記事や電話によるダイアログの書き起こしにおけるモデルの性能について論じる。
最後に,本質的キーワード抽出と外来的キーワード抽出の両方において,テキスト対テキストモデルの評価の課題を特徴付けることを試みる。
関連論文リスト
- VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models [5.713983191152314]
VTechAGPは、最初の学術から一般のテキストパラフレーズデータセットである。
また,新しい動的ソフトプロンプト生成言語モデルDSPT5を提案する。
トレーニングでは、動的プロンプトでキーワードを学習するために、コントラッシブ・ジェネレーション・ロス関数を利用する。
論文 参考訳(メタデータ) (2024-11-07T16:06:00Z) - Enhancing Automatic Keyphrase Labelling with Text-to-Text Transfer Transformer (T5) Architecture: A Framework for Keyphrase Generation and Filtering [2.1656586298989793]
本稿では,テキスト・テキスト・トランスフォーマ(T5)アーキテクチャに基づくキーフレーズ生成モデルを提案する。
また,T5アーキテクチャに基づく新しいキーフレーズフィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T09:16:46Z) - SKT5SciSumm -- Revisiting Extractive-Generative Approach for Multi-Document Scientific Summarization [24.051692189473723]
マルチドキュメント科学要約(MDSS)のためのハイブリッドフレームワークSKT5SciSummを提案する。
我々は,Citation-Informed Transformer (SPECTER) を用いたScientific Paper Embeddingsの文変換バージョンを活用し,文のエンコードと表現を行う。
我々は、抽出文を用いて抽象要約を生成するために、T5モデルのファミリを用いる。
論文 参考訳(メタデータ) (2024-02-27T08:33:31Z) - Cross-Domain Robustness of Transformer-based Keyphrase Generation [1.8492669447784602]
キーフレーズのリストは、データベースや電子文書のリポジトリにおけるテキストの重要な要素である。
本実験では,キーフレーズ生成のために微調整された抽象テキスト要約モデルを用いて,目的のテキストコーパスに対して非常に高い結果を示す。
本稿では,6つのベンチマークコーパス間のキーフレーズ選択タスクに対する微調整BARTモデルの評価を行う。
論文 参考訳(メタデータ) (2023-12-17T12:27:15Z) - GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content [27.901155229342375]
本稿では,言語モデルを用いたChatGPT生成対人文テキストの検出手法を提案する。
テストデータセットの精度は97%以上で,さまざまな指標から評価した。
論文 参考訳(メタデータ) (2023-05-13T17:12:11Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。