論文の概要: Clustering scientific publications: lessons learned through experiments with a real citation network
- arxiv url: http://arxiv.org/abs/2505.18180v1
- Date: Thu, 15 May 2025 14:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.441294
- Title: Clustering scientific publications: lessons learned through experiments with a real citation network
- Title(参考訳): 科学出版物のクラスタリング--実引用ネットワークを用いた実験から学んだこと
- Authors: Vu Thi Huong, Thorsten Koch,
- Abstract要約: スペクトル、ルービン、ライデンアルゴリズムなどのグラフベースのクラスタリング手法は、引用ネットワークをモデル化する能力のために頻繁に利用される。
本研究では,Web of Scienceから抽出した約70万枚の論文と460万個の引用からなる引用グラフ上で,これらのクラスタリングアルゴリズムの性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering scientific publications can reveal underlying research structures within bibliographic databases. Graph-based clustering methods, such as spectral, Louvain, and Leiden algorithms, are frequently utilized due to their capacity to effectively model citation networks. However, their performance may degrade when applied to real-world data. This study evaluates the performance of these clustering algorithms on a citation graph comprising approx. 700,000 papers and 4.6 million citations extracted from Web of Science. The results show that while scalable methods like Louvain and Leiden perform efficiently, their default settings often yield poor partitioning. Meaningful outcomes require careful parameter tuning, especially for large networks with uneven structures, including a dense core and loosely connected papers. These findings highlight practical lessons about the challenges of large-scale data, method selection and tuning based on specific structures of bibliometric clustering tasks.
- Abstract(参考訳): 科学出版物のクラスタ化は、書誌データベースの基盤となる研究構造を明らかにすることができる。
スペクトル、ルービン、ライデンアルゴリズムなどのグラフベースのクラスタリング手法は、引用ネットワークを効果的にモデル化する能力のために頻繁に利用される。
しかし、実世界のデータに適用すると性能が低下する可能性がある。
本研究では,アロックスからなる引用グラフ上で,これらのクラスタリングアルゴリズムの性能を評価する。
ウェブ・オブ・サイエンスから抽出された70万の論文と460万の引用文。
その結果、LouvainやLeidenのようなスケーラブルなメソッドが効率よく機能する一方で、デフォルト設定によってパーティショニングが低くなることが示されている。
意味のある結果には、特に高密度コアや疎結合な論文を含む不均一な構造を持つ大規模ネットワークにおいて、慎重なパラメータチューニングが必要である。
これらの知見は, 大規模データの課題, メソッドの選択, チューニングに関する実践的な教訓を, 書誌クラスタリングタスクの特定の構造に基づいて示したものである。
関連論文リスト
- Author-Specific Linguistic Patterns Unveiled: A Deep Learning Study on Word Class Distributions [0.0]
本研究では,POSタグ付けとBigram解析を用いた著者固有の単語クラス分布について検討した。
深層ニューラルネットワークを利用して、POSタグベクトルと、それらの作品から派生したビッグラム周波数行列に基づいて、文学作家を分類する。
論文 参考訳(メタデータ) (2025-01-17T09:43:49Z) - Text Clustering with Large Language Model Embeddings [0.0]
テキストクラスタリングの有効性は、テキスト埋め込みとクラスタリングアルゴリズムの選択に大きく依存する。
大規模言語モデル(LLM)の最近の進歩は、このタスクを強化する可能性を秘めている。
LLM埋め込みは構造化言語の微妙さを捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - XAI for Self-supervised Clustering of Wireless Spectrum Activity [0.5809784853115825]
本稿では,深層クラスタリング,自己教師型学習アーキテクチャの方法論を提案する。
表現学習部では,入力データの関心領域の解釈にガイドバックプロパゲーションを用いる。
クラスタリングの部分は、クラスタリングの結果を説明するために、Shallow Treesに依存しています。
最後に、データ固有の視覚化部は、各クラスタと入力データとの接続を関連機能をトラフすることを可能にする。
論文 参考訳(メタデータ) (2023-05-17T08:56:43Z) - On Learning the Structure of Clusters in Graphs [3.8073142980733]
多くの実世界のアプリケーションでは、クラスタは大きなハイレベルな構造を持つ。
これはグラフクラスタリングアルゴリズムの設計と解析においてしばしば見過ごされる。
この論文は、クラスタの構造を効率的に学習できるかどうかという自然問題に対処する。
論文 参考訳(メタデータ) (2022-12-29T15:26:19Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Hub-aware Random Walk Graph Embedding Methods for Classification [44.99833362998488]
ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。
提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。
論文 参考訳(メタデータ) (2022-09-15T20:41:18Z) - Deep Graph Learning for Anomalous Citation Detection [55.81334139806342]
本稿では,新たな深層グラフ学習モデルであるGLAD(Graph Learning for Anomaly Detection)を提案する。
GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。
論文 参考訳(メタデータ) (2022-02-23T09:05:28Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。