論文の概要: Incremental Graph Construction Enables Robust Spectral Clustering of Texts
- arxiv url: http://arxiv.org/abs/2603.03056v2
- Date: Thu, 05 Mar 2026 08:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.267454
- Title: Incremental Graph Construction Enables Robust Spectral Clustering of Texts
- Title(参考訳): テキストのロバストスペクトルクラスタリングを可能にするインクリメンタルグラフ構築
- Authors: Marko Pranjić, Boshko Koloski, Nada Lavrač, Senja Pollak, Marko Robnik-Šikonja,
- Abstract要約: 隣接グラフは、テキスト埋め込みのスペクトルクラスタリングにおいて重要なステップであるが、しばしば脆弱なステップである。
簡単な$k$-NNグラフ構造を導入し、設計による接続性を維持する。
標準の$k$-NNグラフと比較すると、解接続されたコンポーネントが一般的であるロー・$k$レジームでは、我々のメソッドは優れています。
- 参考スコア(独自算出の注目度): 3.0215204948822048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neighborhood graphs are a critical but often fragile step in spectral clustering of text embeddings. On realistic text datasets, standard $k$-NN graphs can contain many disconnected components at practical sparsity levels (small $k$), making spectral clustering degenerate and sensitive to hyperparameters. We introduce a simple incremental $k$-NN graph construction that preserves connectivity by design: each new node is linked to its $k$ nearest previously inserted nodes, which guarantees a connected graph for any $k$. We provide an inductive proof of connectedness and discuss implications for incremental updates when new documents arrive. We validate the approach on spectral clustering of SentenceTransformer embeddings using Laplacian eigenmaps across six clustering datasets from the Massive Text Embedding Benchmark. Compared to standard $k$-NN graphs, our method outperforms in the low-$k$ regime where disconnected components are prevalent, and matches standard $k$-NN at larger $k$.
- Abstract(参考訳): 隣接グラフは、テキスト埋め込みのスペクトルクラスタリングにおいて重要なステップであるが、しばしば脆弱なステップである。
現実的なテキストデータセットでは、標準的な$k$-NNグラフは事実上の疎結合レベル($k$)で多くの非連結なコンポーネントを含むことができ、スペクトルクラスタリングは縮退し、ハイパーパラメータに敏感になる。
各ノードは、$k$に最も近い挿入ノードにリンクされ、任意の$k$に対して接続されたグラフを保証する。
接続性の帰納的証明と,新たなドキュメントが到着したときのインクリメンタルアップデートの意義について考察する。
我々は,Massive Text Embedding Benchmarkから得られた6つのクラスタリングデータセットのラプラシアン固有写像を用いて,Sentence Transformer 埋め込みのスペクトルクラスタリングのアプローチを検証する。
標準の$k$-NNグラフと比較して、当社のメソッドは、切断されたコンポーネントが一般的である低$k$レジームで優れており、標準の$k$-NNとより大きい$k$で一致します。
関連論文リスト
- Semi-supervised Instruction Tuning for Large Language Models on Text-Attributed Graphs [62.544129365882014]
本稿では,SIT-Graph というグラフ学習用セミ教師付きインストラクションチューニングパイプラインを提案する。
SIT-Graphはモデルに依存しず、LSMを予測子として利用するグラフ命令チューニングメソッドにシームレスに統合することができる。
SIT-Graphは、最先端グラフチューニング手法に組み込むと、テキスト分散グラフベンチマークの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-19T08:10:53Z) - Can LLMs Convert Graphs to Text-Attributed Graphs? [35.53046810556242]
既存のグラフをテキスト対応グラフに変換するために,Topology-Aware Node description Synthesis (TANS)を提案する。
我々はTANSをテキストリッチ,テキスト制限,テキストフリーのグラフで評価し,その適用性を示した。
論文 参考訳(メタデータ) (2024-12-13T13:32:59Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - A Flexible, Equivariant Framework for Subgraph GNNs via Graph Products and Graph Coarsening [18.688057947275112]
サブグラフGNNはグラフをサブグラフの集合として表現することで、メッセージパッシングGNNの表現性を高める。
以前のアプローチでは、ランダムまたは学習可能なサンプリングによって、サブグラフの小さなサブセットを生成する試みがあった。
本稿では,これらの問題に対処する新しいSubgraph GNNフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T16:29:06Z) - Graph Sparsification via Mixture of Graphs [67.40204130771967]
そこで我々はMixture-of-Graphs (MoG)を導入し、各ノードに対して動的に調整されたプルーニングソリューションを選択する。
MoGには複数のスパシファイアの専門家が組み込まれており、それぞれが独自のスパーシリティレベルとプルーニング基準によって特徴付けられ、各ノードに対して適切な専門家を選択する。
5つのGNNを備えた4つの大規模OGBデータセットと2つのスーパーピクセルデータセットの実験により、MoGはより高い空間レベルのサブグラフを識別することを示した。
論文 参考訳(メタデータ) (2024-05-23T07:40:21Z) - Seq-HGNN: Learning Sequential Node Representation on Heterogeneous Graph [57.2953563124339]
本稿では,シーケンシャルノード表現,すなわちSeq-HGNNを用いた新しい異種グラフニューラルネットワークを提案する。
Heterogeneous Graph Benchmark (HGB) と Open Graph Benchmark (OGB) の4つの広く使われているデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-05-18T07:27:18Z) - $p$-Laplacian Based Graph Neural Networks [27.747195341003263]
グラフネットワーク(GNN)は、グラフ上の半教師付きノード分類において優れた性能を示す。
我々は、離散正規化フレームワークからメッセージパッシング機構を導出する$p$GNNと呼ばれる新しい$p$LaplacianベースのGNNモデルを提案する。
新たなメッセージパッシング機構は低域通過フィルタと高域通過フィルタを同時に動作させることで,ホモ親和性グラフとヘテロ親和性グラフの両方に対して$p$GNNを有効にすることができることを示す。
論文 参考訳(メタデータ) (2021-11-14T13:16:28Z) - AnchorGAE: General Data Clustering via $O(n)$ Bipartite Graph
Convolution [79.44066256794187]
我々は、グラフ畳み込みネットワーク(GCN)を構築するために使用される生成グラフモデルを導入することにより、グラフに非グラフデータセットを変換する方法を示す。
アンカーによって構築された二部グラフは、データの背後にある高レベル情報を利用するために動的に更新される。
理論的には、単純な更新が退化につながることを証明し、それに従って特定の戦略が設計される。
論文 参考訳(メタデータ) (2021-11-12T07:08:13Z) - Node Feature Extraction by Self-Supervised Multi-scale Neighborhood
Prediction [123.20238648121445]
我々は、新しい自己教師型学習フレームワーク、グラフ情報支援ノード機能exTraction (GIANT)を提案する。
GIANT は eXtreme Multi-label Classification (XMC) 形式を利用しており、これはグラフ情報に基づいた言語モデルの微調整に不可欠である。
我々は,Open Graph Benchmarkデータセット上での標準GNNパイプラインよりもGIANTの方が優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-29T19:55:12Z) - Scalable Graph Neural Networks for Heterogeneous Graphs [12.44278942365518]
グラフニューラルネットワーク(GNN)は、グラフ構造化データを学習するためのパラメトリックモデルの一般的なクラスである。
最近の研究は、GNNが主に機能をスムースにするためにグラフを使用しており、ベンチマークタスクで競合する結果を示していると主張している。
本研究では、これらの結果が異種グラフに拡張可能かどうかを問うとともに、異なるエンティティ間の複数のタイプの関係を符号化する。
論文 参考訳(メタデータ) (2020-11-19T06:03:35Z) - Factorizable Graph Convolutional Networks [90.59836684458905]
本稿では,グラフに符号化された相互に絡み合った関係を明示的に解消する新しいグラフ畳み込みネットワーク(GCN)を提案する。
FactorGCNは単純なグラフを入力として取り、それをいくつかの分解グラフに分解する。
提案したFacterGCNは,合成および実世界のデータセットに対して質的かつ定量的に評価する。
論文 参考訳(メタデータ) (2020-10-12T03:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。