論文の概要: A Multilingual Entity Linking System for Wikipedia with a
Machine-in-the-Loop Approach
- arxiv url: http://arxiv.org/abs/2105.15110v1
- Date: Mon, 31 May 2021 16:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 05:51:16.538761
- Title: A Multilingual Entity Linking System for Wikipedia with a
Machine-in-the-Loop Approach
- Title(参考訳): マシン・イン・ザ・ループアプローチによるウィキペディア用多言語エンティティリンクシステム
- Authors: Martin Gerlach and Marshall Miller and Rita Ho and Kosta Harlan and
Djellel Difallah
- Abstract要約: ウィキペディアの編集者によるコンテンツの追加とメンテナンスの努力にもかかわらず、多くの言語版ではリンクの配布は少ないままである。
本稿では,リンクを付加するためのコミュニティガイドラインに従うことのできる,ループ内のマシン・イン・ザ・ループ・エンティティ・リンクシステムを提案する。
筆者らは,推薦の確認,拒否,適応が可能な編集者への候補リンクを提案する対話型レコメンデーションインタフェースを開発した。
- 参考スコア(独自算出の注目度): 2.2889152373118975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperlinks constitute the backbone of the Web; they enable user navigation,
information discovery, content ranking, and many other crucial services on the
Internet. In particular, hyperlinks found within Wikipedia allow the readers to
navigate from one page to another to expand their knowledge on a given subject
of interest or to discover a new one. However, despite Wikipedia editors'
efforts to add and maintain its content, the distribution of links remains
sparse in many language editions. This paper introduces a machine-in-the-loop
entity linking system that can comply with community guidelines for adding a
link and aims at increasing link coverage in new pages and wiki-projects with
low-resources. To tackle these challenges, we build a context and language
agnostic entity linking model that combines data collected from millions of
anchors found across wiki-projects, as well as billions of users' reading
sessions. We develop an interactive recommendation interface that proposes
candidate links to editors who can confirm, reject, or adapt the recommendation
with the overall aim of providing a more accessible editing experience for
newcomers through structured tasks. Our system's design choices were made in
collaboration with members of several language communities. When the system is
implemented as part of Wikipedia, its usage by volunteer editors will help us
build a continuous evaluation dataset with active feedback. Our experimental
results show that our link recommender can achieve a precision above 80% while
ensuring a recall of at least 50% across 6 languages covering different sizes,
continents, and families.
- Abstract(参考訳): ハイパーリンクはウェブのバックボーンを構成しており、ユーザーのナビゲーション、情報発見、コンテンツランキング、その他インターネット上で重要なサービスを可能にする。
特にウィキペディアで見つかったハイパーリンクは、読者があるページから別のページへ移動して、特定の関心事に関する知識を拡大したり、新しいページを発見することを可能にする。
しかし、ウィキペディアの編集者によるコンテンツの追加とメンテナンスの努力にもかかわらず、多くの言語版ではリンクの配布は少ないままである。
本稿では,リンクの追加に関するコミュニティガイドラインを遵守し,新しいページやウィキプロジェクトにおけるリンクカバレッジの向上を目的とした,ループ内エンティティリンクシステムを提案する。
これらの課題に取り組むために、ウィキプロジェクト全体で何百万ものアンカーから収集されたデータと何十億ものユーザの読み取りセッションを組み合わせた、コンテキストと言語に依存しないエンティティリンクモデルを構築します。
そこで我々は,より使いやすい編集体験を提供することを目的として,推薦の確認,拒否,適応が可能な編集者への候補リンクを提案する対話型レコメンデーションインタフェースを開発した。
システムの設計選択は、複数の言語コミュニティのメンバーと共同で行われた。
このシステムがWikipediaの一部として実装されると、ボランティア編集者による利用は、アクティブなフィードバックを伴う継続的評価データセットの構築に役立ちます。
実験の結果,リンクリコメンデータは,サイズ,大陸,家族の異なる6言語で少なくとも50%のリコールを保証しながら,80%以上の精度を達成できることがわかった。
関連論文リスト
- KamerRaad: Enhancing Information Retrieval in Belgian National Politics through Hierarchical Summarization and Conversational Interfaces [55.00702535694059]
KamerRaadは、大きな言語モデルを活用するAIツールで、市民がベルギーの政治情報と対話的に関わるのを助ける。
このツールは、議会の手続きから重要な抜粋を抽出し、簡潔に要約し、次いで生成AIに基づくインタラクションの可能性を示す。
論文 参考訳(メタデータ) (2024-04-22T15:01:39Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Orphan Articles: The Dark Matter of Wikipedia [13.290424502717734]
われわれは,他のウィキペディア記事からのリンクを含まない記事である孤児記事について,最初の体系的な研究を行っている。
すべての記事の約15%(8.8M)の驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えない。
また, 孤児に新たなリンク(脱孤児化)を追加することで, 統計的に有意な可視性向上につながるという疑似実験を通じて因果的証拠を提供する。
論文 参考訳(メタデータ) (2023-06-06T18:04:33Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Predicting Links on Wikipedia with Anchor Text Information [0.571097144710995]
英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的タスクと帰納的タスクについて検討する。
本稿では,適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-05-25T07:57:57Z) - Architecture for a multilingual Wikipedia [0.0]
我々はこの問題にもっと効果的に取り組むために新しいアプローチが必要だと主張する。
本稿では,この目的を達成するシステムのためのアーキテクチャを提案する。
ゴールは2つの部分に分かれている: 抽象ウィキペディアと呼ばれるプロジェクト内の抽象的な表記法でコンテンツを作成し維持すること、そしてこの表記法を自然言語に翻訳できるWikilambdaと呼ばれるインフラストラクチャを作成する。
論文 参考訳(メタデータ) (2020-04-08T22:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。