論文の概要: Graph-Linguistic Fusion: Using Language Models for Wikidata Vandalism Detection
- arxiv url: http://arxiv.org/abs/2505.18136v1
- Date: Fri, 23 May 2025 17:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.259912
- Title: Graph-Linguistic Fusion: Using Language Models for Wikidata Vandalism Detection
- Title(参考訳): グラフ言語融合:Wikidata Vandalism検出における言語モデルの利用
- Authors: Mykola Trokhymovych, Lydia Pintscher, Ricardo Baeza-Yates, Diego Saez-Trumper,
- Abstract要約: ウィキデータのための次世代の破壊検出システムを提案する。
Wikidataは、Web上で最大のオープンソースの構造化知識基盤の1つである。
このアプローチでは、Graph2Textと呼ばれるメソッドを使用して、すべての編集を単一のスペースに変換する。
- 参考スコア(独自算出の注目度): 5.894801758261366
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce a next-generation vandalism detection system for Wikidata, one of the largest open-source structured knowledge bases on the Web. Wikidata is highly complex: its items incorporate an ever-expanding universe of factual triples and multilingual texts. While edits can alter both structured and textual content, our approach converts all edits into a single space using a method we call Graph2Text. This allows for evaluating all content changes for potential vandalism using a single multilingual language model. This unified approach improves coverage and simplifies maintenance. Experiments demonstrate that our solution outperforms the current production system. Additionally, we are releasing the code under an open license along with a large dataset of various human-generated knowledge alterations, enabling further research.
- Abstract(参考訳): ウィキデータ(Wikidata)は,Web上で最大のオープンソースの構造化知識ベースの一つである。
ウィキデータは非常に複雑で、その項目には、事実上の3重テキストと多言語テキストの宇宙が展開されている。
編集は構造化コンテンツとテキストコンテンツの両方を変えることができるが、我々のアプローチでは、Graph2Textと呼ばれるメソッドを使って、すべての編集を単一のスペースに変換する。
これにより、単一の多言語言語モデルを使用して、潜在的な破壊に対するすべてのコンテンツ変更を評価することができる。
この統一されたアプローチは、カバレッジを改善し、メンテナンスを単純化する。
実験により、我々のソリューションが現在の生産システムより優れていることが示された。
さらに、私たちは、さまざまな人間が生成した知識の大規模なデータセットとともに、オープンライセンスの下でコードをリリースし、さらなる研究を可能にしています。
関連論文リスト
- Wikidata as a seed for Web Extraction [4.273966905160028]
複数のWebドメインで公開された新しい事実を識別・抽出できるフレームワークを提案する。
我々は,テキストコレクションから事実を抽出し,Webページから事実を抽出するためのアイデアから着想を得た。
実験の結果,F1スコアでの平均性能は84.07であることがわかった。
論文 参考訳(メタデータ) (2024-01-15T16:35:52Z) - Leveraging Wikidata's edit history in knowledge graph refinement tasks [77.34726150561087]
編集履歴は、コミュニティが何らかのファジィで分散した合意に達する過程を表す。
Wikidataで最も重要な100のクラスから、すべてのインスタンスの編集履歴を含むデータセットを構築します。
タイプ予測タスクのための知識グラフ埋め込みモデルにおいて,この編集履歴情報を活用する2つの新しい手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-10-27T14:32:45Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Multilingual Compositional Wikidata Questions [9.602430657819564]
ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
論文 参考訳(メタデータ) (2021-08-07T19:40:38Z) - Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced
Language Model Pre-training [22.534866015730664]
我々は全英Wikidata KGを言語化した。
Wikidataのような包括的で百科事典的なKGを言語化することで、構造化されたKGと自然言語コーパスを統合することができることを示す。
論文 参考訳(メタデータ) (2020-10-23T22:14:50Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。