論文の概要: Triples and Knowledge-Infused Embeddings for Clustering and Classification of Scientific Documents
- arxiv url: http://arxiv.org/abs/2601.08841v1
- Date: Fri, 19 Dec 2025 20:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.663693
- Title: Triples and Knowledge-Infused Embeddings for Clustering and Classification of Scientific Documents
- Title(参考訳): 科学文書のクラスタリングと分類のための3つの方法と知識注入型埋め込み
- Authors: Mihael Arcan,
- Abstract要約: 構造化された知識、特に主観的述語・対象三重項が、科学論文のクラスタリングと分類をいかに強化するかを考察する。
複数の文書表現に対する教師なしクラスタリングと教師なし分類を組み合わせたモジュールパイプラインを提案する。
その結果,完全抽象文は最も一貫性のあるクラスタを生成するが,三重項を組み込んだハイブリッド表現は分類性能を一貫して向上させることがわかった。
- 参考スコア(独自算出の注目度): 2.115174610040722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing volume and complexity of scientific literature demand robust methods for organizing and understanding research documents. In this study, we explore how structured knowledge, specifically, subject-predicate-object triples, can enhance the clustering and classification of scientific papers. We propose a modular pipeline that combines unsupervised clustering and supervised classification over multiple document representations: raw abstracts, extracted triples, and hybrid formats that integrate both. Using a filtered arXiv corpus, we extract relational triples from abstracts and construct four text representations, which we embed using four state-of-the-art transformer models: MiniLM, MPNet, SciBERT, and SPECTER. We evaluate the resulting embeddings with KMeans, GMM, and HDBSCAN for unsupervised clustering, and fine-tune classification models for arXiv subject prediction. Our results show that full abstract text yields the most coherent clusters, but that hybrid representations incorporating triples consistently improve classification performance, reaching up to 92.6% accuracy and 0.925 macro-F1. We also find that lightweight sentence encoders (MiniLM, MPNet) outperform domain-specific models (SciBERT, SPECTER) in clustering, while SciBERT excels in structured-input classification. These findings highlight the complementary benefits of combining unstructured text with structured knowledge, offering new insights into knowledge-infused representations for semantic organization of scientific documents.
- Abstract(参考訳): 科学文献の量と複雑さの増大は、研究文書を整理し、理解するための堅牢な方法を要求する。
本研究では,構造化された知識,特に主観的述語・対象三重項が,科学的論文のクラスタリングと分類をいかに向上させるかを検討する。
本稿では,教師なしクラスタリングと複数の文書表現に対する教師なし分類を組み合わせたモジュールパイプラインを提案する。
フィルタされたarXivコーパスを用いて、抽象からリレーショナルトリプルを抽出し、4つのテキスト表現を構築し、MiniLM、MPNet、SciBERT、SPECTERの4つの最先端トランスフォーマーモデルを用いて埋め込みます。
KMeans, GMM, HDBSCANによる非教師付きクラスタリングおよびarXiv対象予測のための微調整分類モデルの評価を行った。
以上の結果から,3重項を組み込んだハイブリッド表現は,最大92.6%の精度と0.925のマクロF1に到達し,一貫した分類性能の向上を図っている。
また,軽量文エンコーダ (MiniLM, MPNet) はクラスタリングにおいてドメイン固有モデル (SciBERT, SPECTER) より優れ,SciBERT は構造化入力分類において優れていた。
これらの知見は、構造化されていないテキストと構造化された知識を組み合わせることの相補的な利点を浮き彫りにし、科学的文書の意味的組織のための知識を注入した表現に対する新たな洞察を提供する。
関連論文リスト
- Deep Taxonomic Networks for Unsupervised Hierarchical Prototype Discovery [5.300910554558862]
既存の手法は、しばしば構造をクラスの数に結び付け、中間階層レベルで利用可能なリッチなプロトタイプ情報を未利用にする。
我々はこれらのギャップを埋めるために設計された新しい潜伏変数アプローチであるDeep Taxonomic Networkを導入する。
論文 参考訳(メタデータ) (2025-09-28T03:13:32Z) - Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T15:12:58Z) - HERCULES: Hierarchical Embedding-based Recursive Clustering Using LLMs for Efficient Summarization [0.0]
HERCULESは、多様なデータ型の階層的なk平均クラスタリングのために設計されたアルゴリズムとPythonパッケージである。
階層のそれぞれのレベルでクラスタのセマンティックにリッチなタイトルと記述を生成する。
インタラクティブな可視化ツールは、クラスタリング結果の徹底的な分析と理解を容易にする。
論文 参考訳(メタデータ) (2025-06-24T20:22:00Z) - How Compositional Generalization and Creativity Improve as Diffusion Models are Trained [82.08869888944324]
構成規則を学習するために生成モデルに必要なサンプルはいくつあるか?
ルールを学習するために、データのどのシグナルが利用されるのか?
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Information-Theoretic Generative Clustering of Documents [24.56214029342293]
文書の集合をクラスタリングするための生成クラスタリング(GC)を$mathrmX$で提示する。
大規模言語モデル(LLM)は確率分布を提供するため、2つの文書間の類似性を厳密に定義することができる。
我々はGCが最先端のパフォーマンスを達成し、従来のクラスタリング手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T06:21:21Z) - Group Collaborative Learning for Co-Salient Object Detection [152.67721740487937]
協調物体をリアルタイムで検出できる新しいグループ協調学習フレームワーク(GCoNet)を提案する(16ms)。
CoCA、CoSOD3k、Cosal2015の3つの挑戦的なベンチマークに関する大規模な実験は、我々の単純なGCoNetが10の最先端モデルより優れ、新しい最先端モデルを達成することを実証している。
論文 参考訳(メタデータ) (2021-03-15T13:16:03Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。