論文の概要: Scholarly Wikidata: Population and Exploration of Conference Data in Wikidata using LLMs
- arxiv url: http://arxiv.org/abs/2411.08696v1
- Date: Wed, 13 Nov 2024 15:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:32.812878
- Title: Scholarly Wikidata: Population and Exploration of Conference Data in Wikidata using LLMs
- Title(参考訳): 学術ウィキデータ:LLMを用いたウィキデータにおける会議データの人口と探索
- Authors: Nandana Mihindukulasooriya, Sanju Tiwari, Daniil Dobriy, Finn Årup Nielsen, Tek Raj Chhetri, Axel Polleres,
- Abstract要約: 我々は,Wikidataのインフラを活用して学術データを確実にアクセス可能にすることを提案する。
本研究は,セマンティックWeb関連カンファレンス105件のデータに着目し,ウィキデータに6000件以上のエンティティを拡張・追加する。
- 参考スコア(独自算出の注目度): 4.721309965816974
- License:
- Abstract: Several initiatives have been undertaken to conceptually model the domain of scholarly data using ontologies and to create respective Knowledge Graphs. Yet, the full potential seems unleashed, as automated means for automatic population of said ontologies are lacking, and respective initiatives from the Semantic Web community are not necessarily connected: we propose to make scholarly data more sustainably accessible by leveraging Wikidata's infrastructure and automating its population in a sustainable manner through LLMs by tapping into unstructured sources like conference Web sites and proceedings texts as well as already existing structured conference datasets. While an initial analysis shows that Semantic Web conferences are only minimally represented in Wikidata, we argue that our methodology can help to populate, evolve and maintain scholarly data as a community within Wikidata. Our main contributions include (a) an analysis of ontologies for representing scholarly data to identify gaps and relevant entities/properties in Wikidata, (b) semi-automated extraction -- requiring (minimal) manual validation -- of conference metadata (e.g., acceptance rates, organizer roles, programme committee members, best paper awards, keynotes, and sponsors) from websites and proceedings texts using LLMs. Finally, we discuss (c) extensions to visualization tools in the Wikidata context for data exploration of the generated scholarly data. Our study focuses on data from 105 Semantic Web-related conferences and extends/adds more than 6000 entities in Wikidata. It is important to note that the method can be more generally applicable beyond Semantic Web-related conferences for enhancing Wikidata's utility as a comprehensive scholarly resource. Source Repository: https://github.com/scholarly-wikidata/ DOI: https://doi.org/10.5281/zenodo.10989709 License: Creative Commons CC0 (Data), MIT (Code)
- Abstract(参考訳): オントロジーを用いて学術データの領域を概念的にモデル化し、それぞれの知識グラフを作成するために、いくつかのイニシアティブが実施されている。
Wikidataのインフラを活用し、会議サイトや手続きテキストや既存の構造化された会議データセットなどの非構造的ソースをタップすることで、学術的なデータを持続的にアクセスしやすくすることを提案する。
最初の分析では、セマンティックウェブ会議はウィキデータで最小限にしか表現されないが、我々の方法論はウィキデータ内のコミュニティとして学術データを蓄積し、進化させ、維持するのに役立つと論じている。
主な貢献は
(a)ウィキデータにおけるギャップと関連エンティティ・プロパティを識別するための学術データを表すオントロジーの分析
b)会議メタデータ(例えば、受理率、オーガナイザの役割、プログラム委員会メンバー、最高の論文賞、基調講演、スポンサー)の半自動抽出 -- (最小限の)手作業による検証 -- を、LLMを使用してウェブサイトや手続きテキストから必要とします。
最後に
(c) 生成した学術データのデータ探索のためのウィキデータコンテキストにおける可視化ツールの拡張。
本研究は,セマンティックWeb関連カンファレンス105件のデータに着目し,ウィキデータに6000件以上のエンティティを拡張・追加する。
Wikidata を総合的な学術資料として活用するためには,セマンティックな Web 関連カンファレンスを超えて,より一般的に適用可能である点に留意する必要がある。
Source Repository: https://github.com/scholarly-wikidata/ DOI: https://doi.org/10.5281/zenodo.10989709 License: Creative Commons CC0 (Data), MIT (Code)
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Wikidata as a seed for Web Extraction [4.273966905160028]
複数のWebドメインで公開された新しい事実を識別・抽出できるフレームワークを提案する。
我々は,テキストコレクションから事実を抽出し,Webページから事実を抽出するためのアイデアから着想を得た。
実験の結果,F1スコアでの平均性能は84.07であることがわかった。
論文 参考訳(メタデータ) (2024-01-15T16:35:52Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Does Wikidata Support Analogical Reasoning? [17.68704739786042]
Wikidataの知識が類推的推論をサポートするかどうかを検討する。
Wikidataは類似分類のためのデータ作成に利用できることを示す。
我々は、Wikidataからアナログを抽出する自動手法を導くためのメトリクスセットを考案した。
論文 参考訳(メタデータ) (2022-10-02T20:46:52Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。