論文の概要: Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs
- arxiv url: http://arxiv.org/abs/2601.20704v1
- Date: Wed, 28 Jan 2026 15:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.99973
- Title: Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs
- Title(参考訳): 構造的, 意味的バイアス:埋め込みとGNNによるLCM生成基準の検出
- Authors: Melika Mobini, Vincent Holst, Floriano Tori, Andres Algaba, Vincent Ginis,
- Abstract要約: 我々は、SciSciNetから1万の論文に対して、ペア化された引用グラフ、基底真理、GPT-4o生成(パラメトリック知識から)を構築した。
GPTは、ランダムなベースラインをきれいに拒否するにもかかわらず、地上の真理(RF精度$approx$0.60)とほとんど区別されないことを示す。
集約された埋め込み上のRFは$approx$ 0.83に達し、埋め込みノード機能を持つGNNはGPTと地上真実の93%のテスト精度を達成する。
- 参考スコア(独自算出の注目度): 7.158582263989492
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models are increasingly used to curate bibliographies, raising the question: are their reference lists distinguishable from human ones? We build paired citation graphs, ground truth and GPT-4o-generated (from parametric knowledge), for 10,000 focal papers ($\approx$ 275k references) from SciSciNet, and added a field-matched random baseline that preserves out-degree and field distributions while breaking latent structure. We compare (i) structure-only node features (degree/closeness/eigenvector centrality, clustering, edge count) with (ii) 3072-D title/abstract embeddings, using an RF on graph-level aggregates and Graph Neural Networks with node features. Structure alone barely separates GPT from ground truth (RF accuracy $\approx$ 0.60) despite cleanly rejecting the random baseline ($\approx$ 0.89--0.92). By contrast, embeddings sharply increase separability: RF on aggregated embeddings reaches $\approx$ 0.83, and GNNs with embedding node features achieve 93\% test accuracy on GPT vs.\ ground truth. We show the robustness of our findings by replicating the pipeline with Claude Sonnet 4.5 and with multiple embedding models (OpenAI and SPECTER), with RF separability for ground truth vs.\ Claude $\approx 0.77$ and clean rejection of the random baseline. Thus, LLM bibliographies, generated purely from parametric knowledge, closely mimic human citation topology, but leave detectable semantic fingerprints; detection and debiasing should target content signals rather than global graph structure.
- Abstract(参考訳): 大規模な言語モデルは、書誌学のカリキュラム化にますます使われ、疑問を提起している:彼らの参照リストは人間と区別できるのか?
我々は、SciSciNetから1万の焦点論文(275k参照)に対して、ペア化された引用グラフ、地中真理、GPT-4o生成(パラメトリック知識から)を構築し、潜在構造を破りながら、外度と野の分布を保存できるフィールド整合ランダムベースラインを追加した。
比較
(i)構造限定ノード特徴(次数/閉度/固有ベクトル中心性、クラスタリング、エッジカウント)
(ii) グラフレベルの集約に対するRFとノード特徴を持つグラフニューラルネットワークを用いた3072-Dタイトル/抽象埋め込み。
構造だけではGPTを(RF精度$\approx$ 0.60)、ランダムなベースラインをきれいに拒否する($ 0.89--0.92)。
一方、埋め込みは分離性を大幅に向上させ、集約埋め込みのRFは$0.83ドルに達し、埋め込みノード機能を持つGNNはGPT対GPTで93%の精度を達成する。
真実を語る。
パイプラインをClaude Sonnet 4.5と複数の埋め込みモデル(OpenAI, SPECTER)で複製し, 地上真実に対するRF分離性を示す。
Claude $\approx 0.77$とランダムなベースラインのクリーンな拒絶。
このように、パラメトリックな知識から純粋に生成されたLLM書誌は、人間の引用トポロジを忠実に模倣するが、検出可能なセマンティックフィンガーを残している。
関連論文リスト
- Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - Synergistic Feature Fusion for Latent Lyrical Classification: A Gated Deep Learning Architecture [0.0]
本研究は,複雑で高次元の深い意味的特徴を,論理的内容分類のための単純かつ解釈可能な構造的手がかりと統合するという課題に対処する。
低次元補助的特徴(Fstruct)を用いた意味-BERT埋め込み(Fdeep)を修飾するためのゲート機構を利用したディープラーニングモデルであるSFLアーキテクチャを提案する。
SFLモデルは精度0.9894、マクロF1スコア0.9894を達成し、特徴連結を用いた総合ランダムフォレスト(RF)ベースラインを上回った。
論文 参考訳(メタデータ) (2025-11-11T21:12:52Z) - Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores [3.959606869996232]
本報告では,TVD-MIの2次試行平均値が,非線形リンク関数を使わずに項目応答理論(IRT)に適合する付加的構造で中心確率スコアを得ることを示す。
Giniエントロピーからこのクリップ付き線形評価を導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
論文 参考訳(メタデータ) (2025-10-16T17:59:25Z) - Real-time nonlinear inversion of magnetic resonance elastography with operator learning [0.06797079068199119]
oNLIフレームワークは、NLIに匹敵する空間精度を持つエラストグラムのリアルタイムMREインバージョン(30,000倍高速化)を可能にする。
MRE文学におけるソフト事前正規化に類似した構造的事前機構が,空間的精度を向上させるために組み込まれている。
論文 参考訳(メタデータ) (2025-10-03T08:55:40Z) - The Heterophilic Snowflake Hypothesis: Training and Empowering GNNs for Heterophilic Graphs [59.03660013787925]
ヘテロフィリー・スノーフレーク仮説を導入し、ヘテロ親和性グラフの研究をガイドし、促進するための効果的なソリューションを提供する。
観察の結果,我々のフレームワークは多種多様なタスクのための多目的演算子として機能することがわかった。
さまざまなGNNフレームワークに統合することができ、パフォーマンスを詳細に向上し、最適なネットワーク深さを選択するための説明可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-18T12:16:00Z) - AdaFGL: A New Paradigm for Federated Node Classification with Topology
Heterogeneity [44.11777886421429]
Federated Graph Learning (FGL) はグラフニューラルネットワークに基づく分散フレームワークとして注目されている。
構造的非イド分割の概念を導入し、次に、UnderlineAdaptive UnderlineFederated UnderlineGraph UnderlineLearning (AdaFGL)と呼ばれる新しいパラダイムを示す。
提案したAdaFGLは,コミュニティ分割の3.24%,コミュニティ分割の5.57%,非イド分割の5.57%でベースラインを上回った。
論文 参考訳(メタデータ) (2024-01-22T08:23:31Z) - Personalized Subgraph Federated Learning [56.52903162729729]
本稿では,新たなサブグラフFL問題,パーソナライズされたサブグラフFLを導入する。
本稿では,Federated Personalized sUBgraph Learning (FED-PUB)を提案する。
オーバーラップしないサブグラフとオーバーラップするサブグラフの両方を考慮して,FED-PUBのサブグラフFL性能を6つのデータセットで検証した。
論文 参考訳(メタデータ) (2022-06-21T09:02:53Z) - $p$-Laplacian Based Graph Neural Networks [27.747195341003263]
グラフネットワーク(GNN)は、グラフ上の半教師付きノード分類において優れた性能を示す。
我々は、離散正規化フレームワークからメッセージパッシング機構を導出する$p$GNNと呼ばれる新しい$p$LaplacianベースのGNNモデルを提案する。
新たなメッセージパッシング機構は低域通過フィルタと高域通過フィルタを同時に動作させることで,ホモ親和性グラフとヘテロ親和性グラフの両方に対して$p$GNNを有効にすることができることを示す。
論文 参考訳(メタデータ) (2021-11-14T13:16:28Z) - Node Feature Extraction by Self-Supervised Multi-scale Neighborhood
Prediction [123.20238648121445]
我々は、新しい自己教師型学習フレームワーク、グラフ情報支援ノード機能exTraction (GIANT)を提案する。
GIANT は eXtreme Multi-label Classification (XMC) 形式を利用しており、これはグラフ情報に基づいた言語モデルの微調整に不可欠である。
我々は,Open Graph Benchmarkデータセット上での標準GNNパイプラインよりもGIANTの方が優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-29T19:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。