論文の概要: Extending Neural Keyword Extraction with TF-IDF tagset matching
- arxiv url: http://arxiv.org/abs/2102.00472v1
- Date: Sun, 31 Jan 2021 15:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 05:45:49.979524
- Title: Extending Neural Keyword Extraction with TF-IDF tagset matching
- Title(参考訳): TF-IDFタグセットマッチングによる拡張ニューラルキーワード抽出
- Authors: Boshko Koloski and Senja Pollak and Bla\v{z} \v{S}krlj and Matej
Martinc
- Abstract要約: キーワード抽出は、与えられた文書を最もよく記述し、同様のトピックの記事をリンクするニュースポータルで機能する単語を識別するタスクである。
本研究では, ヨーロッパのニュースメディア産業において, 表現の少ない, 形態的に豊かな言語を対象とする4つの新しいデータセットの手法を開発し, 評価する。
- 参考スコア(独自算出の注目度): 4.014524824655106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyword extraction is the task of identifying words (or multi-word
expressions) that best describe a given document and serve in news portals to
link articles of similar topics. In this work we develop and evaluate our
methods on four novel data sets covering less represented, morphologically-rich
languages in European news media industry (Croatian, Estonian, Latvian and
Russian). First, we perform evaluation of two supervised neural
transformer-based methods (TNT-KID and BERT+BiLSTM CRF) and compare them to a
baseline TF-IDF based unsupervised approach. Next, we show that by combining
the keywords retrieved by both neural transformer based methods and extending
the final set of keywords with an unsupervised TF-IDF based technique, we can
drastically improve the recall of the system, making it appropriate to be used
as a recommendation system in the media house environment.
- Abstract(参考訳): キーワード抽出は、与えられた文書を最もよく記述し、同様のトピックの記事をリンクするためにニュースポータルで役立つ単語(または複数の単語表現)を識別するタスクです。
本研究では,欧州のニュースメディア産業(クロアチア語,エストニア語,ラトビア語,ロシア語)において,表現力の低い形態素豊かな4つの新しいデータセットを開発・評価した。
まず,2つの教師付きニューラルトランスベースの手法(TNT-KIDとBERT+BiLSTM CRF)の評価を行い,これらをベースラインTF-IDFベースの非監視アプローチと比較する。
次に、ニューラルトランスフォーマーベースの手法によって検索されたキーワードと、教師なしTF-IDFベースの手法を併用することにより、システムリコールを大幅に改善し、メディアハウス環境におけるレコメンデーションシステムとしての使用が適切であることを示す。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Word Sense Induction with Knowledge Distillation from BERT [6.88247391730482]
本稿では、文脈における単語の感覚に注意を払って、事前学習された言語モデル(BERT)から複数の単語感覚を抽出する手法を提案する。
文脈的単語類似性および感覚誘導タスクの実験は、この手法が最先端のマルチセンス埋め込みよりも優れているか、あるいは競合していることを示している。
論文 参考訳(メタデータ) (2023-04-20T21:05:35Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Self-Supervised Detection of Contextual Synonyms in a Multi-Class
Setting: Phenotype Annotation Use Case [11.912581294872767]
文脈的単語埋め込みは文脈的同義語を検出する強力なツールである。
本研究では,浅部マッチングによって生成されたデータに基づいて,概念の文脈的同義性を検出できる自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-04T21:35:01Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Deep Transformer based Data Augmentation with Subword Units for
Morphologically Rich Online ASR [0.0]
ディープトランスフォーマーモデルは、ASRの言語モデリングタスクにおいて特に強力であることが証明されている。
近年の研究では、ニューラルネットワーク言語モデル(LM)の知識の大部分は、ニューラルテキスト生成に基づくデータ拡張を用いて従来のn-gramに転送可能であることが示されている。
トランスフォーマー生成したテキストによるデータ拡張は、孤立言語ではうまく機能するが、形態的にリッチな言語では語彙が爆発する。
そこで我々は,生成したテキストを統計的に派生したサブワードに再学習する,サブワードベースのニューラルテキスト拡張法を提案する。
論文 参考訳(メタデータ) (2020-07-14T10:22:05Z) - Transformer Based Language Models for Similar Text Retrieval and Ranking [0.0]
本稿では,ニューラルトランスモデルを類似したテキスト検索とランキングに効果的に適用するための新しいアプローチを提案する。
提案手法は, 単語のバッグ・オブ・ワード・ベースのステップを排除し, クエリに共通する非単語がなくても, 精度よく検索結果を検索・ランク付けすることができる。
論文 参考訳(メタデータ) (2020-05-10T06:12:53Z) - TNT-KID: Transformer-based Neural Tagger for Keyword Identification [7.91883337742071]
本稿では,キーワード識別のための Transformer-based Neural Tagger (TNT-KID) というキーワード識別アルゴリズムを提案する。
特定のタスクにトランスフォーマーアーキテクチャを適用し、ドメイン固有のコーパスで事前学習する言語モデルを活用することにより、キーワード抽出に対する教師なしと教師なしの両方のアプローチの欠陥を克服することができる。
論文 参考訳(メタデータ) (2020-03-20T09:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。