論文の概要: Cost-Effective Label-free Node Classification with LLMs
- arxiv url: http://arxiv.org/abs/2412.11983v1
- Date: Mon, 16 Dec 2024 17:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:12.572427
- Title: Cost-Effective Label-free Node Classification with LLMs
- Title(参考訳): LLMを用いたコスト効果ラベレスノード分類
- Authors: Taiyan Zhang, Renchi Yang, Mingyu Yan, Xiaochun Ye, Dongrui Fan, Yurui Lai,
- Abstract要約: グラフニューラルネットワーク(GNN)は,グラフデータのノード分類モデルとして登場した。
大規模言語モデル (LLMs) の出現により、有望な方法は、ノードラベリングに非常に優れたゼロショット機能と膨大な知識を活用することである。
この研究は、LCMをGNNに統合する能動的自己学習フレームワークであるCellaを費用対効果で提示する。
- 参考スコア(独自算出の注目度): 10.538099379851198
- License:
- Abstract: Graph neural networks (GNNs) have emerged as go-to models for node classification in graph data due to their powerful abilities in fusing graph structures and attributes. However, such models strongly rely on adequate high-quality labeled data for training, which are expensive to acquire in practice. With the advent of large language models (LLMs), a promising way is to leverage their superb zero-shot capabilities and massive knowledge for node labeling. Despite promising results reported, this methodology either demands considerable queries to LLMs, or suffers from compromised performance caused by noisy labels produced by LLMs. To remedy these issues, this work presents Cella, an active self-training framework that integrates LLMs into GNNs in a cost-effective manner. The design recipe of Cella is to iteratively identify small sets of "critical" samples using GNNs and extract informative pseudo-labels for them with both LLMs and GNNs as additional supervision signals to enhance model training. Particularly, Cella includes three major components: (i) an effective active node selection strategy for initial annotations; (ii) a judicious sample selection scheme to sift out the "critical" nodes based on label disharmonicity and entropy; and (iii) a label refinement module combining LLMs and GNNs with rewired topology. Our extensive experiments over five benchmark text-attributed graph datasets demonstrate that Cella significantly outperforms the state of the arts under the same query budget to LLMs in terms of label-free node classification. In particular, on the DBLP dataset with 14.3k nodes, Cella is able to achieve an 8.08% conspicuous improvement in accuracy over the state-of-the-art at a cost of less than one cent.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)は、グラフ構造と属性を融合する強力な能力のため、グラフデータのノード分類のためのゴートモデルとして登場した。
しかし、そのようなモデルは訓練に十分な高品質なラベル付きデータに強く依存しており、実際に取得するには高価である。
大規模言語モデル (LLMs) の出現により、有望な方法は、ノードラベリングに非常に優れたゼロショット機能と膨大な知識を活用することである。
有望な結果が報告されたにも拘わらず、この手法はLLMに対してかなりのクエリを要求するか、あるいはLLMが生成するノイズラベルによって生じる妥協されたパフォーマンスに悩まされるかのどちらかである。
これらの問題を解決するために,LLMをGNNに統合する能動的自己学習フレームワークであるCellaを費用対効果で提供する。
Cellaの設計レシピは、GNNを用いて少数の「クリティカル」サンプルを反復的に識別し、LLMとGNNの両方で情報的擬似ラベルを抽出し、モデルトレーニングを強化するための追加の監視信号である。
特にCellaには3つの主要コンポーネントがある。
(i)初期アノテーションの有効なアクティブノード選択戦略
二 ラベル不整合性及びエントロピーに基づいて「クリティカル」ノードを除去する司法サンプル選定方式
(iii)LLMとGNNと再配線トポロジーを組み合わせたラベルリファインメントモジュール。
5つのベンチマークテキスト分散グラフデータセットに対する広範な実験により、Cellaはラベルのないノード分類において、同じクエリ予算の下で最先端のデータをLLMに大幅に上回ることを示した。
特に14.3kノードを持つDBLPデータセットでは、Cellaは1セント以下のコストで最先端の精度を8.08%向上させることができる。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Similarity-based Neighbor Selection for Graph LLMs [43.176381523196426]
類似性に基づく近隣選択(SNS)について紹介する。
SNSは、選択した隣人の品質を改善し、グラフ表現を改善し、オーバースカッシングやヘテロフィリーといった問題を緩和する。
インダクティブでトレーニングのないアプローチとして、SNSは従来のGNN手法よりも優れた一般化とスケーラビリティを示している。
論文 参考訳(メタデータ) (2024-02-06T05:29:05Z) - Large Language Models as Topological Structure Enhancers for Text-Attributed Graphs [4.487720716313697]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野に革命をもたらした。
本研究では,LLMの情報検索とテキスト生成機能を活用して,ノード分類設定の下でのテキスト分散グラフ(TAG)のトポロジ構造を洗練・強化する方法について検討する。
論文 参考訳(メタデータ) (2023-11-24T07:53:48Z) - Label-free Node Classification on Graphs with Large Language Models
(LLMS) [46.937442239949256]
本研究では,Large Language Models パイプライン LLM-GNN を用いたグラフ上でのラベルなしノード分類を導入する。
制限を緩和しながら、GNNとLLMの長所を反復する。
特に、LLM-GNNは1ドル未満の大規模データセットで74.9%の精度を達成できる。
論文 参考訳(メタデータ) (2023-10-07T03:14:11Z) - Balancing Efficiency vs. Effectiveness and Providing Missing Label
Robustness in Multi-Label Stream Classification [3.97048491084787]
ニューラルネットワークを用いた高次元多ラベル分類手法を提案する。
本モデルは,非定常環境に適した選択的なドリフト適応機構を用いる。
我々は,単純で効果的な計算手法を用いて,ラベルを欠いた環境に適応する。
論文 参考訳(メタデータ) (2023-10-01T13:23:37Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Delving Deep into Label Smoothing [112.24527926373084]
ディープニューラルネットワーク(DNN)の効果的な正規化ツールとしてのラベル平滑化
対象カテゴリのモデル予測の統計に基づいてソフトラベルを生成するオンラインラベル平滑化(OLS)戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T08:03:11Z) - Cyclic Label Propagation for Graph Semi-supervised Learning [52.102251202186025]
本稿では,CycPropと呼ばれるグラフ半教師付き学習のための新しいフレームワークを提案する。
CycPropはGNNを周期的かつ相互に強化された方法でラベル伝播の過程に統合する。
特に,提案するCycPropでは,GNNモジュールが学習したノード埋め込みをラベル伝搬による拡張情報で更新する。
論文 参考訳(メタデータ) (2020-11-24T02:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。