論文の概要: Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering
- arxiv url: http://arxiv.org/abs/2602.08519v1
- Date: Mon, 09 Feb 2026 11:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.186801
- Title: Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering
- Title(参考訳): ブリジングアカデミアと産業 - 分散グラフクラスタリングのための総合ベンチマーク
- Authors: Yunhui Liu, Pengyu Qiu, Yu Xing, Yongchao Liu, Peng Du, Chuntao Hong, Jiajun Zheng, Tao Zheng, Tieke He,
- Abstract要約: 分散グラフクラスタリング(AGC)は、構造トポロジとノード属性を統合して、グラフ構造化データの潜在パターンを明らかにする、基本的な教師なしタスクである。
不正検出やユーザセグメンテーションといった産業的応用において重要であるが、学術研究と現実世界の展開の間には大きな亀裂が残っている。
PyAGCは多種多様なスケールと構造特性にまたがってAGC手法をストレステストするために設計された,実運用可能なベンチマークおよびライブラリである。
- 参考スコア(独自算出の注目度): 19.247242477915382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attributed Graph Clustering (AGC) is a fundamental unsupervised task that integrates structural topology and node attributes to uncover latent patterns in graph-structured data. Despite its significance in industrial applications such as fraud detection and user segmentation, a significant chasm persists between academic research and real-world deployment. Current evaluation protocols suffer from the small-scale, high-homophily citation datasets, non-scalable full-batch training paradigms, and a reliance on supervised metrics that fail to reflect performance in label-scarce environments. To bridge these gaps, we present PyAGC, a comprehensive, production-ready benchmark and library designed to stress-test AGC methods across diverse scales and structural properties. We unify existing methodologies into a modular Encode-Cluster-Optimize framework and, for the first time, provide memory-efficient, mini-batch implementations for a wide array of state-of-the-art AGC algorithms. Our benchmark curates 12 diverse datasets, ranging from 2.7K to 111M nodes, specifically incorporating industrial graphs with complex tabular features and low homophily. Furthermore, we advocate for a holistic evaluation protocol that mandates unsupervised structural metrics and efficiency profiling alongside traditional supervised metrics. Battle-tested in high-stakes industrial workflows at Ant Group, this benchmark offers the community a robust, reproducible, and scalable platform to advance AGC research towards realistic deployment. The code and resources are publicly available via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc), and Documentation (https://pyagc.readthedocs.io).
- Abstract(参考訳): 分散グラフクラスタリング(AGC)は、構造トポロジとノード属性を統合して、グラフ構造化データの潜在パターンを明らかにする、基本的な教師なしタスクである。
不正検出やユーザセグメンテーションといった産業的応用において重要であるが、学術研究と現実世界の展開の間には大きな亀裂が残っている。
現在の評価プロトコルは、小規模でホモフィックな引用データセット、非スケーリング可能なフルバッチトレーニングパラダイム、ラベルスカース環境でのパフォーマンスを反映できない教師付きメトリクスへの依存に悩まされている。
これらのギャップを埋めるため,多種多様なスケールと構造特性にまたがるAGC手法のストレステストを目的とした,包括的で実運用対応のベンチマークとライブラリであるPyAGCを提案する。
既存の方法論をモジュール化したEncode-Cluster-Optimizeフレームワークに統一し,メモリ効率のよいミニバッチ実装を多種多様な最先端AGCアルゴリズムに対して初めて提供する。
我々のベンチマークでは、2.7Kノードから111Mノードまでの12の多様なデータセットをキュレートしている。
さらに,従来の教師付き指標と並行して,教師なし構造指標と効率プロファイリングを規定する包括的評価プロトコルを提唱する。
Ant Groupの高度な産業ワークフローでテストされたこのベンチマークは、AGC研究を現実的なデプロイメントに向けて前進させる、堅牢で再現性があり、スケーラブルなプラットフォームを提供する。
コードとリソースはGitHub (https://github.com/Cloudy1225/PyAGC)、PyPI (https://pypi.org/project/pyagc)、Documentation (https://pyagc.readthedocs.io)を通じて公開されている。
関連論文リスト
- Graph Structure Refinement with Energy-based Contrastive Learning [56.957793274727514]
グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。
本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。
ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文 参考訳(メタデータ) (2024-12-20T04:05:09Z) - Benchmarking Federated Learning for Semantic Datasets: Federated Scene Graph Generation [3.499870393443268]
フェデレートラーニング(FL)はデータのプライバシを維持しながら分散トレーニングを可能にするが、既存のFLベンチマークは比較的単純な分類タスクに対処する。
クライアント間のセマンティックな不均一性を制御可能なFLベンチマークを構築するためのベンチマークプロセスを提案する。
概念実証として,既存のPSG手法の有効性をFL設定で実証するフェデレートPSGベンチマークを構築した。
論文 参考訳(メタデータ) (2024-12-11T08:10:46Z) - Generative and Contrastive Paradigms Are Complementary for Graph
Self-Supervised Learning [56.45977379288308]
Masked Autoencoder (MAE)は、マスク付きグラフエッジやノード機能の再構築を学ぶ。
Contrastive Learning (CL)は、同じグラフの拡張ビュー間の類似性を最大化する。
我々は,MAE と CL を統一するグラフコントラッシブマスク付きオートエンコーダ (GCMAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T05:06:06Z) - Efficient Multi-View Graph Clustering with Local and Global Structure
Preservation [59.49018175496533]
局所・グローバル構造保存を用いた効率的なマルチビューグラフクラスタリング(EMVGC-LG)という,アンカーベースのマルチビューグラフクラスタリングフレームワークを提案する。
具体的には、EMVGC-LGがクラスタリング品質を向上させるために、アンカー構築とグラフ学習を共同で最適化する。
さらに、EMVGC-LGはサンプル数に関する既存のAMVGCメソッドの線形複雑性を継承する。
論文 参考訳(メタデータ) (2023-08-31T12:12:30Z) - CGC: Contrastive Graph Clustering for Community Detection and Tracking [33.48636823444052]
グラフクラスタリングのための新しいエンドツーエンドフレームワークであるCGCを開発した。
CGCは、対照的なグラフ学習フレームワークでノードの埋め込みとクラスタ割り当てを学習する。
時間進化データに対してCGCを拡張し、時間的グラフクラスタリングを漸進的な学習方式で行う。
論文 参考訳(メタデータ) (2022-04-05T17:34:47Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Structure-Enhanced Meta-Learning For Few-Shot Graph Classification [53.54066611743269]
本研究では,数点グラフ分類の解法のためのメトリベースメタラーニングの可能性を検討する。
SMFGINというGINの実装は、ChemblとTRIANGLESの2つのデータセットでテストされている。
論文 参考訳(メタデータ) (2021-03-05T09:03:03Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。