論文の概要: Entity Insertion in Multilingual Linked Corpora: The Case of Wikipedia
- arxiv url: http://arxiv.org/abs/2410.04254v1
- Date: Sat, 5 Oct 2024 18:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:49:52.251776
- Title: Entity Insertion in Multilingual Linked Corpora: The Case of Wikipedia
- Title(参考訳): 多言語リンクコーパスにおけるエンティティ挿入:Wikipediaの場合
- Authors: Tomás Feith, Akhil Arora, Martin Gerlach, Debjit Paul, Robert West,
- Abstract要約: 我々はLocEIと呼ばれるエンティティ挿入のためのフレームワークを開発し,その多言語版であるXLocEIを開発した。
XLocEIは全てのベースラインモデルより優れており、最小性能の低下でトレーニング中に見られない言語に対してゼロショットで適用可能であることを示す。
これらの発見は、例えばエディターが300以上のウィキペディアの言語バージョンにリンクを追加するのをサポートするために、実際にエンティティ挿入モデルを適用するのに重要である。
- 参考スコア(独自算出の注目度): 14.221520251569173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Links are a fundamental part of information networks, turning isolated pieces of knowledge into a network of information that is much richer than the sum of its parts. However, adding a new link to the network is not trivial: it requires not only the identification of a suitable pair of source and target entities but also the understanding of the content of the source to locate a suitable position for the link in the text. The latter problem has not been addressed effectively, particularly in the absence of text spans in the source that could serve as anchors to insert a link to the target entity. To bridge this gap, we introduce and operationalize the task of entity insertion in information networks. Focusing on the case of Wikipedia, we empirically show that this problem is, both, relevant and challenging for editors. We compile a benchmark dataset in 105 languages and develop a framework for entity insertion called LocEI (Localized Entity Insertion) and its multilingual variant XLocEI. We show that XLocEI outperforms all baseline models (including state-of-the-art prompt-based ranking with LLMs such as GPT-4) and that it can be applied in a zero-shot manner on languages not seen during training with minimal performance drop. These findings are important for applying entity insertion models in practice, e.g., to support editors in adding links across the more than 300 language versions of Wikipedia.
- Abstract(参考訳): リンクは情報ネットワークの基本的な部分であり、孤立した知識を、その部分の総和よりもはるかにリッチな情報のネットワークに変換する。
しかし、ネットワークに新しいリンクを追加するのは簡単ではなく、適切なソースとターゲットエンティティの識別だけでなく、テキスト内のリンクに適した位置を見つけるために、ソースの内容の理解も必要である。
後者の問題は、特にターゲットエンティティへのリンクを挿入するアンカーとして機能するソースにテキストスパンがない場合に、効果的に対処されていない。
このギャップを埋めるために、情報ネットワークにおいてエンティティ挿入のタスクを導入し、運用する。
ウィキペディアの場合に着目して、この問題が編集者にとって適切かつ困難なものであることを実証的に示す。
ベンチマークデータセットを105言語にコンパイルし,LocEI (Localized Entity Insertion) と呼ばれるエンティティ挿入のためのフレームワークを開発した。
XLocEI は全てのベースラインモデル(GPT-4 などの LLM を用いた最先端のプロンプトベースランキングを含む)より優れており、最小性能低下の訓練中に見られない言語に対してゼロショットで適用可能であることを示す。
これらの発見は、ウィキペディアの300以上の言語バージョンにリンクを追加する際にエディタをサポートするために、実際にエンティティ挿入モデルを適用する上で重要である。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - OneNet: A Fine-Tuning Free Framework for Few-Shot Entity Linking via Large Language Model Prompting [49.655711022673046]
OneNetは、大規模言語モデル(LLM)の少数ショット学習機能を利用する革新的なフレームワークで、微調整は不要である。
1)無関係なエンティティを要約してフィルタリングすることで入力を単純化するエンティティリダクションプロセッサ,(2)コンテキスト的キューと事前知識を組み合わせて正確なエンティティリンクを行うデュアルパースペクティブエンティティリンカ,(3)エンティティリンク推論における幻覚を緩和するユニークな一貫性アルゴリズムを利用するエンティティコンセンサス判定器,である。
論文 参考訳(メタデータ) (2024-10-10T02:45:23Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - WebIE: Faithful and Robust Information Extraction on the Web [7.361265860494963]
We present WebIE, a first large-scale, entity-linked closed IE dataset with 1.6M sentences。
WebIEには否定的な例、すなわち事実の3倍の文が含まれており、ウェブ上のデータをよく反映している。
生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットの言語間性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。
論文 参考訳(メタデータ) (2023-05-23T17:37:53Z) - KEPLET: Knowledge-Enhanced Pretrained Language Model with Topic Entity
Awareness [12.90996504014071]
Topicエンティティ認識を備えた知識強化型LanguagEモデルKEPLETを提案する。
エンドツーエンドの方法で、KEPLETはトピックエンティティの情報をWikipediaの文に追加する場所を特定する。
2つの代表KEPLMに適用したKePLETの一般性と優越性を示す実験を行った。
論文 参考訳(メタデータ) (2023-05-02T22:28:26Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。