論文の概要: Back to the Basics: A Quantitative Analysis of Statistical and
Graph-Based Term Weighting Schemes for Keyword Extraction
- arxiv url: http://arxiv.org/abs/2104.08028v1
- Date: Fri, 16 Apr 2021 10:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 21:27:10.353000
- Title: Back to the Basics: A Quantitative Analysis of Statistical and
Graph-Based Term Weighting Schemes for Keyword Extraction
- Title(参考訳): 基本に戻す:キーワード抽出のための統計的およびグラフ的用語重み付け方式の定量的解析
- Authors: Asahi Ushio and Federico Liberatore and Jose Camacho-Collados
- Abstract要約: 用語重み付けスキームは自然言語処理や情報検索で広く使われている。
本稿では,統計およびグラフに基づく項重み付け手法の総合的および大規模比較を行う。
tf-idfに対する語彙的特異性の低さの利点など,いくつかの興味深い知見が得られた。
- 参考スコア(独自算出の注目度): 1.0312968200748116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Term weighting schemes are widely used in Natural Language Processing and
Information Retrieval. In particular, term weighting is the basis for keyword
extraction. However, there are relatively few evaluation studies that shed
light about the strengths and shortcomings of each weighting scheme. In fact,
in most cases researchers and practitioners resort to the well-known tf-idf as
default, despite the existence of other suitable alternatives, including
graph-based models. In this paper, we perform an exhaustive and large-scale
empirical comparison of both statistical and graph-based term weighting methods
in the context of keyword extraction. Our analysis reveals some interesting
findings such as the advantages of the less-known lexical specificity with
respect to tf-idf, or the qualitative differences between statistical and
graph-based methods. Finally, based on our findings we discuss and devise some
suggestions for practitioners. We release our code at
https://github.com/asahi417/kex .
- Abstract(参考訳): 用語重み付けスキームは自然言語処理や情報検索で広く使われている。
特に、項重み付けはキーワード抽出の基礎となる。
しかし,各重み付け方式の強みと欠点を軽視する評価研究は比較的少ない。
実際、研究者や実践者は、グラフベースのモデルを含む他の適切な選択肢が存在するにもかかわらず、よく知られたtf-idfをデフォルトとしています。
本稿では,キーワード抽出の文脈において,統計的およびグラフに基づく項重み付け手法の徹底的かつ大規模比較を行う。
解析の結果,tf-idfに対する語彙特異性の低さの利点や,統計的手法とグラフ的手法の質的差異など,興味深い知見が得られた。
最後に,我々の知見に基づき,実践者への提案を議論し,考案する。
私たちはコードをhttps://github.com/asahi417/kexでリリースします。
関連論文リスト
- Statistical Uncertainty in Word Embeddings: GloVe-V [35.04183792123882]
本稿では,GloVeの近似的,使いやすい,スケーラブルな再構成誤差分散推定手法を提案する。
分散を伴う埋め込み(GloVe-V)の価値を示すために,本手法がコアワード埋め込みタスクにおいて,原理的仮説テストを実現する方法について述べる。
論文 参考訳(メタデータ) (2024-06-18T00:35:02Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - KMF: Knowledge-Aware Multi-Faceted Representation Learning for Zero-Shot
Node Classification [75.95647590619929]
Zero-Shot Node Classification (ZNC)は、グラフデータ分析において、新しく重要なタスクである。
ラベルセマンティクスの豊かさを向上する知識認識型多面的フレームワーク(KMF)を提案する。
ノード情報集約によるプロトタイプドリフトの問題を軽減するために,新しい幾何学的制約を開発した。
論文 参考訳(メタデータ) (2023-08-15T02:38:08Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - To Know by the Company Words Keep and What Else Lies in the Vicinity [0.0]
本稿では,GloVe や Word2Vec など,セミナルアルゴリズムによって学習された統計データの解析モデルを提案する。
われわれの知る限りでは、Word2Vecのソフトマックス最適化、スキップグラムアルゴリズムの最初の既知のソリューションである。
論文 参考訳(メタデータ) (2022-04-30T03:47:48Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Marginal likelihood computation for model selection and hypothesis
testing: an extensive review [66.37504201165159]
この記事では、このトピックの最先端に関する総合的な研究について紹介する。
さまざまなテクニックの制限、メリット、コネクション、差異を強調します。
また、不適切な事前利用の問題や解決法についても述べる。
論文 参考訳(メタデータ) (2020-05-17T18:31:58Z) - Knowledge Graph Embedding for Link Prediction: A Comparative Analysis [9.57564539646078]
Link Predictionは、知識グラフの不完全性に対処するための有望で広く研究されているタスクである。
本研究は,16種類の組込み型LP法の有効性と効率を実験的に比較し,ルールベースベースラインを考察し,文献における最も一般的なベンチマークに関する詳細な分析を報告する。
論文 参考訳(メタデータ) (2020-02-03T15:21:25Z) - A logic-based relational learning approach to relation extraction: The
OntoILPER system [0.9176056742068812]
論理に基づく関係学習手法OntoILPERを提案する。
OntoILPERは、例のリッチなリレーショナル表現の利益を享受し、欠点を軽減することができる。
提案手法は統計的手法よりも関係抽出に適していると考えられる。
論文 参考訳(メタデータ) (2020-01-13T12:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。