論文の概要: Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering
- arxiv url: http://arxiv.org/abs/2602.08519v1
- Date: Mon, 09 Feb 2026 11:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.186801
- Title: Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering
- Title(参考訳): ブリジングアカデミアと産業 - 分散グラフクラスタリングのための総合ベンチマーク
- Authors: Yunhui Liu, Pengyu Qiu, Yu Xing, Yongchao Liu, Peng Du, Chuntao Hong, Jiajun Zheng, Tao Zheng, Tieke He,
- Abstract要約: 分散グラフクラスタリング(AGC)は、構造トポロジとノード属性を統合して、グラフ構造化データの潜在パターンを明らかにする、基本的な教師なしタスクである。
不正検出やユーザセグメンテーションといった産業的応用において重要であるが、学術研究と現実世界の展開の間には大きな亀裂が残っている。
PyAGCは多種多様なスケールと構造特性にまたがってAGC手法をストレステストするために設計された,実運用可能なベンチマークおよびライブラリである。
- 参考スコア(独自算出の注目度): 19.247242477915382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attributed Graph Clustering (AGC) is a fundamental unsupervised task that integrates structural topology and node attributes to uncover latent patterns in graph-structured data. Despite its significance in industrial applications such as fraud detection and user segmentation, a significant chasm persists between academic research and real-world deployment. Current evaluation protocols suffer from the small-scale, high-homophily citation datasets, non-scalable full-batch training paradigms, and a reliance on supervised metrics that fail to reflect performance in label-scarce environments. To bridge these gaps, we present PyAGC, a comprehensive, production-ready benchmark and library designed to stress-test AGC methods across diverse scales and structural properties. We unify existing methodologies into a modular Encode-Cluster-Optimize framework and, for the first time, provide memory-efficient, mini-batch implementations for a wide array of state-of-the-art AGC algorithms. Our benchmark curates 12 diverse datasets, ranging from 2.7K to 111M nodes, specifically incorporating industrial graphs with complex tabular features and low homophily. Furthermore, we advocate for a holistic evaluation protocol that mandates unsupervised structural metrics and efficiency profiling alongside traditional supervised metrics. Battle-tested in high-stakes industrial workflows at Ant Group, this benchmark offers the community a robust, reproducible, and scalable platform to advance AGC research towards realistic deployment. The code and resources are publicly available via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc), and Documentation (https://pyagc.readthedocs.io).
- Abstract(参考訳): 分散グラフクラスタリング(AGC)は、構造トポロジとノード属性を統合して、グラフ構造化データの潜在パターンを明らかにする、基本的な教師なしタスクである。
不正検出やユーザセグメンテーションといった産業的応用において重要であるが、学術研究と現実世界の展開の間には大きな亀裂が残っている。
現在の評価プロトコルは、小規模でホモフィックな引用データセット、非スケーリング可能なフルバッチトレーニングパラダイム、ラベルスカース環境でのパフォーマンスを反映できない教師付きメトリクスへの依存に悩まされている。
これらのギャップを埋めるため,多種多様なスケールと構造特性にまたがるAGC手法のストレステストを目的とした,包括的で実運用対応のベンチマークとライブラリであるPyAGCを提案する。
既存の方法論をモジュール化したEncode-Cluster-Optimizeフレームワークに統一し,メモリ効率のよいミニバッチ実装を多種多様な最先端AGCアルゴリズムに対して初めて提供する。
我々のベンチマークでは、2.7Kノードから111Mノードまでの12の多様なデータセットをキュレートしている。
さらに,従来の教師付き指標と並行して,教師なし構造指標と効率プロファイリングを規定する包括的評価プロトコルを提唱する。
Ant Groupの高度な産業ワークフローでテストされたこのベンチマークは、AGC研究を現実的なデプロイメントに向けて前進させる、堅牢で再現性があり、スケーラブルなプラットフォームを提供する。
コードとリソースはGitHub (https://github.com/Cloudy1225/PyAGC)、PyPI (https://pypi.org/project/pyagc)、Documentation (https://pyagc.readthedocs.io)を通じて公開されている。
関連論文リスト
- Core-based Hierarchies for Efficient GraphRAG [0.0]
GraphRAGはドキュメントを階層的なコミュニティで要約可能な知識グラフに整理する。
現在のGraphRAGアプローチは、コミュニティ検出にライデンクラスタリングを頼っているが、平均次数が一定であり、ほとんどのノードが低次であるようなスパース知識グラフでは、モジュラリティ最適化は指数関数的に多くの準最適分割を許容する。
これを解決するために、線形時間における決定論的密度認識階層を生成するkコア分解をライデンに置き換えることを提案する。
論文 参考訳(メタデータ) (2026-03-05T14:17:30Z) - Deep Global Clustering for Hyperspectral Image Segmentation: Concepts, Applications, and Open Challenges [1.9116784879310027]
ハイパースペクトルイメージング(HSI)解析は、利用可能なメモリを超える大量のデータ量のために計算ボトルネックに直面している。
本稿では,メモリ効率の高いHSIセグメンテーションの概念フレームワークであるDeep Global Clustering (DGC)について述べる。
DGCは、重複するリージョンを持つ小さなパッチを使用して一貫性を強制し、コンシューマハードウェア上で30分未満のトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-30T12:10:43Z) - Knowledge Graphs as Structured Memory for Embedding Spaces: From Training Clusters to Explainable Inference [3.2945446636945963]
Graph Memory(GM)は、組み込みベースの推論を領域レベルのプロトタイプよりもコンパクトでリレーショナルなメモリで強化する構造化された非パラメトリックフレームワークである。
信頼性と関係構造を明示的にモデル化することにより、GMは非パラメトリック学習における局所的な証拠とグローバルな一貫性の間に原則化された橋渡しを提供する。
論文 参考訳(メタデータ) (2025-11-18T23:02:59Z) - Graph Structure Refinement with Energy-based Contrastive Learning [56.957793274727514]
グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。
本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。
ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文 参考訳(メタデータ) (2024-12-20T04:05:09Z) - Benchmarking Federated Learning for Semantic Datasets: Federated Scene Graph Generation [3.499870393443268]
フェデレートラーニング(FL)はデータのプライバシを維持しながら分散トレーニングを可能にするが、既存のFLベンチマークは比較的単純な分類タスクに対処する。
クライアント間のセマンティックな不均一性を制御可能なFLベンチマークを構築するためのベンチマークプロセスを提案する。
概念実証として,既存のPSG手法の有効性をFL設定で実証するフェデレートPSGベンチマークを構築した。
論文 参考訳(メタデータ) (2024-12-11T08:10:46Z) - Generative and Contrastive Paradigms Are Complementary for Graph
Self-Supervised Learning [56.45977379288308]
Masked Autoencoder (MAE)は、マスク付きグラフエッジやノード機能の再構築を学ぶ。
Contrastive Learning (CL)は、同じグラフの拡張ビュー間の類似性を最大化する。
我々は,MAE と CL を統一するグラフコントラッシブマスク付きオートエンコーダ (GCMAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T05:06:06Z) - Efficient Multi-View Graph Clustering with Local and Global Structure
Preservation [59.49018175496533]
局所・グローバル構造保存を用いた効率的なマルチビューグラフクラスタリング(EMVGC-LG)という,アンカーベースのマルチビューグラフクラスタリングフレームワークを提案する。
具体的には、EMVGC-LGがクラスタリング品質を向上させるために、アンカー構築とグラフ学習を共同で最適化する。
さらに、EMVGC-LGはサンプル数に関する既存のAMVGCメソッドの線形複雑性を継承する。
論文 参考訳(メタデータ) (2023-08-31T12:12:30Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - CGC: Contrastive Graph Clustering for Community Detection and Tracking [33.48636823444052]
グラフクラスタリングのための新しいエンドツーエンドフレームワークであるCGCを開発した。
CGCは、対照的なグラフ学習フレームワークでノードの埋め込みとクラスタ割り当てを学習する。
時間進化データに対してCGCを拡張し、時間的グラフクラスタリングを漸進的な学習方式で行う。
論文 参考訳(メタデータ) (2022-04-05T17:34:47Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Structure-Enhanced Meta-Learning For Few-Shot Graph Classification [53.54066611743269]
本研究では,数点グラフ分類の解法のためのメトリベースメタラーニングの可能性を検討する。
SMFGINというGINの実装は、ChemblとTRIANGLESの2つのデータセットでテストされている。
論文 参考訳(メタデータ) (2021-03-05T09:03:03Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。