論文の概要: TNT-KID: Transformer-based Neural Tagger for Keyword Identification
- arxiv url: http://arxiv.org/abs/2003.09166v3
- Date: Tue, 30 Nov 2021 14:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:24:00.131433
- Title: TNT-KID: Transformer-based Neural Tagger for Keyword Identification
- Title(参考訳): TNT-KID:キー識別のためのトランスフォーマーベースニューラルタガー
- Authors: Matej Martinc, Bla\v{z} \v{S}krlj and Senja Pollak
- Abstract要約: 本稿では,キーワード識別のための Transformer-based Neural Tagger (TNT-KID) というキーワード識別アルゴリズムを提案する。
特定のタスクにトランスフォーマーアーキテクチャを適用し、ドメイン固有のコーパスで事前学習する言語モデルを活用することにより、キーワード抽出に対する教師なしと教師なしの両方のアプローチの欠陥を克服することができる。
- 参考スコア(独自算出の注目度): 7.91883337742071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With growing amounts of available textual data, development of algorithms
capable of automatic analysis, categorization and summarization of these data
has become a necessity. In this research we present a novel algorithm for
keyword identification, i.e., an extraction of one or multi-word phrases
representing key aspects of a given document, called Transformer-based Neural
Tagger for Keyword IDentification (TNT-KID). By adapting the transformer
architecture for a specific task at hand and leveraging language model
pretraining on a domain specific corpus, the model is capable of overcoming
deficiencies of both supervised and unsupervised state-of-the-art approaches to
keyword extraction by offering competitive and robust performance on a variety
of different datasets while requiring only a fraction of manually labeled data
required by the best performing systems. This study also offers thorough error
analysis with valuable insights into the inner workings of the model and an
ablation study measuring the influence of specific components of the keyword
identification workflow on the overall performance.
- Abstract(参考訳): 利用可能なテキストデータの量が増えるにつれて,自動解析,分類,要約が可能なアルゴリズムの開発が求められている。
本研究では,キーワード識別のためのTransformer-based Neural Tagger for Keyword IDentification (TNT-KID)と呼ばれる,キーワード識別のための新しいアルゴリズムを提案する。
特定のタスクに対してトランスフォーマーアーキテクチャを適用し、ドメイン固有のコーパスで事前訓練した言語モデルを活用することで、最高のパフォーマンスシステムに必要な手動ラベル付きデータのごく一部を必要としながら、さまざまなデータセットに対して競争力と堅牢なパフォーマンスを提供することで、キーワード抽出に対する教師付きおよび教師なしの最先端両方のアプローチの欠陥を克服することができる。
本研究は,モデルの内部動作に関する貴重な知見を含む詳細なエラー解析や,キーワード識別ワークフローの特定成分が全体のパフォーマンスに与える影響を計測するアブレーションスタディも提供する。
関連論文リスト
- Retrieval-Enhanced Named Entity Recognition [1.2187048691454239]
RENERは、In-Context Learningと情報検索技術に基づく自己回帰言語モデルを用いたエンティティ認識手法である。
実験の結果,CrossNERコレクションでは,提案手法を用いて最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-17T01:12:48Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - Hierarchical Transformer Model for Scientific Named Entity Recognition [0.20646127669654832]
名前付きエンティティ認識のためのシンプルで効果的なアプローチを提案する。
提案手法の主な考え方は、入力サブワードシーケンスをBERTのような事前学習された変換器で符号化することである。
科学的NERのための3つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-28T12:59:06Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - An Evaluation of Recent Neural Sequence Tagging Models in Turkish Named
Entity Recognition [5.161531917413708]
本研究では,条件付きランダムフィールド層を有する変圧器ベースネットワークを提案する。
本研究は,移動学習が形態的に豊かな言語処理に与える影響を定量化する文献に寄与する。
論文 参考訳(メタデータ) (2020-05-14T06:54:07Z) - Exclusive Hierarchical Decoding for Deep Keyphrase Generation [63.357895318562214]
キーフレーズ生成(KG)は、文書の主要なアイデアをキーフレーズの集合にまとめることを目的としている。
この設定の以前の作業では、キーフレーズを生成するためのシーケンシャルなデコードプロセスが使用されている。
本稿では,階層的復号化プロセスとソフトかハードかのいずれかを含む排他的階層的復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T02:58:00Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。