論文の概要: Pattern-Based Graph Classification: Comparison of Quality Measures and Importance of Preprocessing
- arxiv url: http://arxiv.org/abs/2507.00039v1
- Date: Thu, 19 Jun 2025 07:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.404612
- Title: Pattern-Based Graph Classification: Comparison of Quality Measures and Importance of Preprocessing
- Title(参考訳): パターンに基づくグラフ分類: 品質対策と前処理の重要性の比較
- Authors: Lucas Potin, Rosa Figueiredo, Vincent Labatut, Christine Largeron,
- Abstract要約: グラフ分類は、その構造的特徴と属性的特徴に基づいてグラフを分類することを目的としており、ソーシャルネットワーク分析やバイオインフォマティクスといった様々な分野に応用されている。
意味のあるパターンを特定するためには、各パターンの識別能力を評価する機能として、品質指標を使用することが標準的手法である。
これらの指標を比較していくつかの洞察を提供しようとする調査はごくわずかで、いずれもグラフに特化していない。
本論文では,38種類の品質指標の比較分析を行い,パターンのゴールド標準ランキングを精査する手法を提案する。
- 参考スコア(独自算出の注目度): 3.1970244655208306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph classification aims to categorize graphs based on their structural and attribute features, with applications in diverse fields such as social network analysis and bioinformatics. Among the methods proposed to solve this task, those relying on patterns (i.e. subgraphs) provide good explainability, as the patterns used for classification can be directly interpreted. To identify meaningful patterns, a standard approach is to use a quality measure, i.e. a function that evaluates the discriminative power of each pattern. However, the literature provides tens of such measures, making it difficult to select the most appropriate for a given application. Only a handful of surveys try to provide some insight by comparing these measures, and none of them specifically focuses on graphs. This typically results in the systematic use of the most widespread measures, without thorough evaluation. To address this issue, we present a comparative analysis of 38 quality measures from the literature. We characterize them theoretically, based on four mathematical properties. We leverage publicly available datasets to constitute a benchmark, and propose a method to elaborate a gold standard ranking of the patterns. We exploit these resources to perform an empirical comparison of the measures, both in terms of pattern ranking and classification performance. Moreover, we propose a clustering-based preprocessing step, which groups patterns appearing in the same graphs to enhance classification performance. Our experimental results demonstrate the effectiveness of this step, reducing the number of patterns to be processed while achieving comparable performance. Additionally, we show that some popular measures widely used in the literature are not associated with the best results.
- Abstract(参考訳): グラフ分類は、その構造的特徴と属性的特徴に基づいてグラフを分類することを目的としており、ソーシャルネットワーク分析やバイオインフォマティクスといった様々な分野に応用されている。
この課題を解決するために提案された手法のうち、パターンに依存するもの(サブグラフなど)は、分類に使用されるパターンを直接解釈できるため、優れた説明性を提供する。
意味のあるパターンを特定するためには、各パターンの識別能力を評価する機能として、品質指標を使用することが標準的手法である。
しかし、この文献は数十の測度を提供しており、与えられたアプリケーションに最も適したものを選択することは困難である。
これらの指標を比較していくつかの洞察を提供しようとする調査はごくわずかで、いずれもグラフに特化していない。
これは一般的に、徹底的な評価なしに最も広範な尺度の体系的な使用をもたらす。
この問題に対処するため,文献による38項目の品質指標の比較分析を行った。
4つの数学的性質に基づいて理論的に特徴付ける。
我々は、利用可能なデータセットを活用してベンチマークを作成し、パターンのゴールド標準ランキングを精査する手法を提案する。
我々はこれらの資源を利用して、パターンのランク付けと分類性能の両面で、測定方法の実証的な比較を行う。
さらに,同じグラフに現れるパターンをグループ化し,分類性能を向上させるクラスタリングに基づく事前処理手順を提案する。
実験の結果、このステップの有効性を実証し、処理すべきパターンの数を減らすとともに、同等の性能を実現した。
さらに,文献で広く用いられているいくつかの一般的な尺度は,最良の結果とは関係がないことを示す。
関連論文リスト
- Improving LLM Leaderboards with Psychometrical Methodology [0.0]
大規模言語モデル(LLM)の急速な開発は、その性能を評価するためにベンチマークの作成を必要としている。
これらのベンチマークは、人間のテストや調査に似ており、これらのシステムの認知行動における創発性を測定するために設計された質問で構成されている。
しかし、社会科学でよく定義された特徴や能力とは異なり、これらのベンチマークによって測定される特性は曖昧で厳密に定義されていないことが多い。
論文 参考訳(メタデータ) (2025-01-27T21:21:46Z) - A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [50.982315553104975]
セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:06:41Z) - Exploring Description-Augmented Dataless Intent Classification [1.5839621757142595]
我々は、データレスインテント分類における記述強化埋め込み類似性を活用するためのいくつかのスキームを紹介した。
我々は、データレス分類スケーリングの有望な結果を、無意味な意図を多数提示する。
論文 参考訳(メタデータ) (2024-07-25T08:31:57Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Bures-Wasserstein Means of Graphs [60.42414991820453]
本研究では,スムーズなグラフ信号分布の空間への埋め込みを通じて,グラフ平均を定義する新しいフレームワークを提案する。
この埋め込み空間において平均を求めることにより、構造情報を保存する平均グラフを復元することができる。
我々は,新しいグラフの意味の存在と特異性を確立し,それを計算するための反復アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-05-31T11:04:53Z) - Hub-aware Random Walk Graph Embedding Methods for Classification [44.99833362998488]
ノード分類問題に特化して設計されたランダムウォークに基づく2つの新しいグラフ埋め込みアルゴリズムを提案する。
提案手法は,実世界のネットワークの埋め込みを訓練した3つの分類アルゴリズムの分類性能を解析して実験的に評価する。
論文 参考訳(メタデータ) (2022-09-15T20:41:18Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - A Broader Picture of Random-walk Based Graph Embedding [2.6546685109604304]
ランダムウォークに基づくグラフ埋め込みは、多くのグラフ関連下流タスクに対する効果的なソリューションをサポートする。
本研究では,ランダムウォークプロセス,類似関数,埋め込みアルゴリズムという3つのコンポーネントからなるランダムウォークグラフ埋め込みの分析フレームワークを開発する。
自己共分散類似度に基づく埋め込みは,ドット製品ランキングと組み合わせてリンク予測を行う場合,ポイントワイズ・ミューチュアル・インフォメーション類似度に基づく最先端手法を最大100%向上させることを示す。
論文 参考訳(メタデータ) (2021-10-24T03:40:16Z) - ECKPN: Explicit Class Knowledge Propagation Network for Transductive
Few-shot Learning [53.09923823663554]
クラスレベルの知識は、ほんの一握りのサンプルから人間が容易に学習することができる。
本稿では,この問題に対処する明示的クラス知識伝達ネットワーク(ECKPN)を提案する。
筆者らは,4つの数ショット分類ベンチマークについて広範な実験を行い,提案したECKPNが最先端の手法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-06-16T02:29:43Z) - Visualization of Supervised and Self-Supervised Neural Networks via
Attribution Guided Factorization [87.96102461221415]
クラスごとの説明性を提供するアルゴリズムを開発した。
実験の広範なバッテリーでは、クラス固有の可視化のための手法の能力を実証する。
論文 参考訳(メタデータ) (2020-12-03T18:48:39Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link
Prediction Methods [27.27230441498167]
本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメント(Entity Alignment)の2つのファミリについて,より詳しく検討する。
特に、既存のスコアはすべて、異なるデータセット間で結果を比較するのにほとんど役に立たないことを実証する。
これは結果の解釈において様々な問題を引き起こしており、誤解を招く結論を裏付ける可能性がある。
論文 参考訳(メタデータ) (2020-02-17T12:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。