論文の概要: Combining keyphrase extraction and lexical diversity to characterize
ideas in publication titles
- arxiv url: http://arxiv.org/abs/2208.13978v1
- Date: Tue, 30 Aug 2022 04:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:14:26.545047
- Title: Combining keyphrase extraction and lexical diversity to characterize
ideas in publication titles
- Title(参考訳): 出版タイトルのアイデアを特徴付けるためにキーフレーズ抽出と語彙多様性を組み合わせる
- Authors: James Powell, Martin Klein, Lyudmila Balakireva
- Abstract要約: コーパスからより包括的なキーワード集合を生成することを目的として,複数のフレーズ検出モデルを提案する。
いくつかのフレーズ検出モデルの性能を比較し,各モデルのキーフレーズ集合を解析し,各モデルからキーフレーズを組み込んだコーパスの語彙的多様性を計算する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beyond bibliometrics, there is interest in characterizing the evolution of
the number of ideas in scientific papers. A common approach for investigating
this involves analyzing the titles of publications to detect vocabulary changes
over time. With the notion that phrases, or more specifically keyphrases,
represent concepts, lexical diversity metrics are applied to phrased versions
of the titles. Thus changes in lexical diversity are treated as indicators of
shifts, and possibly expansion, of research. Therefore, optimizing detection of
keyphrases is an important aspect of this process. Rather than just one, we
propose to use multiple phrase detection models with the goal to produce a more
comprehensive set of keyphrases from the source corpora. Another potential
advantage to this approach is that the union and difference of these sets may
provide automated techniques for identifying and omitting non-specific phrases.
We compare the performance of several phrase detection models, analyze the
keyphrase sets output of each, and calculate lexical diversity of corpora
variants incorporating keyphrases from each model, using four common lexical
diversity metrics.
- Abstract(参考訳): 書誌学以外にも、科学論文におけるアイデアの数の進化を特徴付けることにも関心がある。
これを調べる一般的なアプローチは、時間とともに語彙の変化を検出するために出版物のタイトルを分析することである。
フレーズ(特にキーフレーズ)は概念を表す概念であり、語彙の多様性のメトリクスはタイトルのフレーズバージョンに適用される。
したがって、語彙の多様性の変化は、研究のシフトや拡張の指標として扱われる。
したがって、キーフレーズの最適化は、このプロセスの重要な側面である。
1つではなく、ソースコーパスからより包括的なキーフレーズを生成するために、複数のフレーズ検出モデルを使用することを提案する。
このアプローチのもう1つの潜在的な利点は、これらの集合の結合と差が非特定の句を識別し省略する自動化技術を提供する可能性があることである。
我々は,複数のフレーズ検出モデルの性能を比較し,各単語のキーワード集合を解析し,各モデルからキーワードを取り入れたコーパスの語彙的多様性を4つの共通語彙的多様性指標を用いて算出する。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - SimCKP: Simple Contrastive Learning of Keyphrase Representations [36.88517357720033]
そこで本論文では,(1)文脈認識型フレーズレベルの表現からキーフレーズを抽出する抽出器・ジェネレータと,(2)生成したフレーズのスコアを対応する文書と整列させることで,文書に現れないキーフレーズを生成するリランカと,の2つの段階からなる単純なコントラスト学習フレームワークであるSimCKPを提案する。
論文 参考訳(メタデータ) (2023-10-12T11:11:54Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Neural Keyphrase Generation: Analysis and Evaluation [47.004575377472285]
本稿では,T5(事前学習型トランスフォーマー),CatSeq-Transformer(非事前学習型トランスフォーマー),ExHiRD(リカレントニューラルネットワーク)の3つの強力なモデルで示される傾向について検討する。
2つのキーフレーズの類似性を評価するために,SoftKeyScoreという新しいメトリクスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-27T00:10:21Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Applying Transformer-based Text Summarization for Keyphrase Generation [2.28438857884398]
キーフレーズは学術文書の検索と体系化に不可欠である。
本稿では,抽象的なテキスト要約のためのトランスフォーマーモデルについて実験する。
要約モデルはフルマッチのF1スコアとBERTスコアでキーフレーズを生成するのに非常に効果的であることを示す。
また,キーフレーズをターゲットとした順序付け戦略についても検討する。
論文 参考訳(メタデータ) (2022-09-08T13:01:52Z) - Polling Latent Opinions: A Method for Computational Sociolinguistics
Using Transformer Language Models [4.874780144224057]
我々は,Yelp レビューのより大きなコーパス内で,トランスフォーマー言語モデルの記憶と外挿の能力を用いて,サブグループの言語的振る舞いを学習する。
トレーニングコーパスに特定のキーワードが制限されたり、全く存在しない場合においても、GPTは正しい感情を持つ大量のテキストを正確に生成できることを示す。
論文 参考訳(メタデータ) (2022-04-15T14:33:58Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Exclusive Hierarchical Decoding for Deep Keyphrase Generation [63.357895318562214]
キーフレーズ生成(KG)は、文書の主要なアイデアをキーフレーズの集合にまとめることを目的としている。
この設定の以前の作業では、キーフレーズを生成するためのシーケンシャルなデコードプロセスが使用されている。
本稿では,階層的復号化プロセスとソフトかハードかのいずれかを含む排他的階層的復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T02:58:00Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。