論文の概要: CrediBench: Building Web-Scale Network Datasets for Information Integrity
- arxiv url: http://arxiv.org/abs/2509.23340v3
- Date: Thu, 02 Oct 2025 14:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.133384
- Title: CrediBench: Building Web-Scale Network Datasets for Information Integrity
- Title(参考訳): CrediBench: 情報統合のためのWebスケールネットワークデータセットの構築
- Authors: Emma Kondrup, Sebastian Sabry, Hussein Abdallah, Zachary Yang, James Zhou, Kellin Pelrine, Jean-François Godbout, Michael M. Bronstein, Reihaneh Rabbany, Shenyang Huang,
- Abstract要約: CrediBenchは、時間的Webグラフを構築するための大規模データ処理パイプラインである。
我々のアプローチは、一般的な誤情報領域の動的進化を捉えている。
本稿では,このグラフスナップショットを用いた実験から,信頼度を学習するための構造的およびWebページコンテンツ信号の強度を実証する。
- 参考スコア(独自算出の注目度): 27.562742270396086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online misinformation poses an escalating threat, amplified by the Internet's open nature and increasingly capable LLMs that generate persuasive yet deceptive content. Existing misinformation detection methods typically focus on either textual content or network structure in isolation, failing to leverage the rich, dynamic interplay between website content and hyperlink relationships that characterizes real-world misinformation ecosystems. We introduce CrediBench: a large-scale data processing pipeline for constructing temporal web graphs that jointly model textual content and hyperlink structure for misinformation detection. Unlike prior work, our approach captures the dynamic evolution of general misinformation domains, including changes in both content and inter-site references over time. Our processed one-month snapshot extracted from the Common Crawl archive in December 2024 contains 45 million nodes and 1 billion edges, representing the largest web graph dataset made publicly available for misinformation research to date. From our experiments on this graph snapshot, we demonstrate the strength of both structural and webpage content signals for learning credibility scores, which measure source reliability. The pipeline and experimentation code are all available here, and the dataset is in this folder.
- Abstract(参考訳): オンラインの誤報は、インターネットのオープンな性質と、説得力があるが欺くコンテンツを生成する能力の増大によって、エスカレートする脅威をもたらす。
既存の誤情報検出方法は、典型的には、テキストコンテンツまたはネットワーク構造を分離して焦点を合わせ、Webサイトコンテンツと現実世界の誤情報エコシステムを特徴付けるハイパーリンクの関係の間のリッチで動的な相互作用を活用できない。
本稿では,テキストコンテンツとハイパーリンク構造を協調的にモデル化し,誤情報検出のための時間的Webグラフを構築するための大規模データ処理パイプラインであるCrediBenchを紹介する。
これまでの研究とは異なり、我々の手法は、コンテンツとサイト間参照の両方の変化を含む、一般的な誤情報領域の動的進化を捉えている。
2024年12月のCommon Crawlアーカイブから抽出した1ヶ月のスナップショットには,4500万のノードと10億のエッジが含まれています。
このグラフスナップショット実験から,情報源の信頼性を計測する信頼性スコアを学習するための構造的およびWebページコンテンツ信号の強度を実証した。
パイプラインと実験コードはここで利用可能であり、データセットはこのフォルダにある。
関連論文リスト
- WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では、AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題である、オープンエンドディープリサーチ(OEDR)に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークであるWebWeaverを紹介する。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Bridging Social Media and Search Engines: Dredge Words and the Detection of Unreliable Domains [3.659498819753633]
我々はWebグラフとソーシャルメディアのコンテキストを統合したWebサイト信頼性分類・発見システムを開発した。
本稿では,信頼できないドメインが検索エンジン上で高いランクを付けるような単語,用語,フレーズの概念を紹介する。
私たちは、ソーシャルメディアとオンラインコマースプラットフォームとの強いつながりを強調した、ドレッジワードの新たなデータセットをリリースしました。
論文 参考訳(メタデータ) (2024-06-17T11:22:04Z) - TIE: Topological Information Enhanced Structural Reading Comprehension
on Web Pages [31.291568831285442]
トークンレベルタスクをタグレベルタスクに変換するためのトポロジカル情報拡張モデル(TIE)を提案する。
TIEは、その情報を活用するために、グラフ注意ネットワーク(GAT)と事前学習言語モデル(PLM)を統合している。
実験により,本モデルが強いベースラインを上回り,論理構造と空間構造の両方を達成することを示す。
論文 参考訳(メタデータ) (2022-05-13T03:21:09Z) - Twitter Referral Behaviours on News Consumption with Ensemble Clustering
of Click-Stream Data in Turkish Media [2.9005223064604078]
本研究は,Twitter のレファレンスに追随するニュース消費パターンを識別するために,組織ウェブサイトにおける読者のクリック活動について調査する。
調査は、ログデータをニュースコンテンツとリンクして洞察を深めることで、幅広い視点に展開されている。
論文 参考訳(メタデータ) (2022-02-04T09:57:13Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - MIRA: Leveraging Multi-Intention Co-click Information in Web-scale
Document Retrieval using Deep Neural Networks [5.963438927897287]
産業Web検索におけるディープリコールモデルの問題について検討する。
ウェブスケールのマルチインテンション共同クリック文書グラフを提案する。
また,Bertとグラフアテンションネットワークに基づく符号化フレームワークMIRAを提案する。
論文 参考訳(メタデータ) (2020-07-03T06:32:48Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Siamese Graph Neural Networks for Data Integration [11.41207739004894]
本稿では,リレーショナルデータベースなどの構造化データからエンティティをモデリングし,統合するための一般的なアプローチと,ニュース記事からの自由テキストなどの構造化されていない情報源を提案する。
我々のアプローチは、エンティティ間の関係を明示的にモデル化し、活用することにより、利用可能なすべての情報を使用し、できるだけ多くのコンテキストを保存するように設計されています。
我々は,ビジネスエンティティに関するデータ統合作業における手法の評価を行い,グラフベース表現を使用しない他のディープラーニングアプローチと同様に,標準的なルールベースシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-17T21:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。