論文の概要: WebIE: Faithful and Robust Information Extraction on the Web
- arxiv url: http://arxiv.org/abs/2305.14293v2
- Date: Thu, 15 Jun 2023 13:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:40:16.397980
- Title: WebIE: Faithful and Robust Information Extraction on the Web
- Title(参考訳): WebIE: Web上の忠実でロバストな情報抽出
- Authors: Chenxi Whitehouse, Clara Vania, Alham Fikri Aji, Christos
Christodoulopoulos, Andrea Pierleoni
- Abstract要約: We present WebIE, a first large-scale, entity-linked closed IE dataset with 1.6M sentences。
WebIEには否定的な例、すなわち事実の3倍の文が含まれており、ウェブ上のデータをよく反映している。
生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットの言語間性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。
- 参考スコア(独自算出の注目度): 7.361265860494963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting structured and grounded fact triples from raw text is a
fundamental task in Information Extraction (IE). Existing IE datasets are
typically collected from Wikipedia articles, using hyperlinks to link entities
to the Wikidata knowledge base. However, models trained only on Wikipedia have
limitations when applied to web domains, which often contain noisy text or text
that does not have any factual information. We present WebIE, the first
large-scale, entity-linked closed IE dataset consisting of 1.6M sentences
automatically collected from the English Common Crawl corpus. WebIE also
includes negative examples, i.e. sentences without fact triples, to better
reflect the data on the web. We annotate ~21K triples from WebIE through
crowdsourcing and introduce mWebIE, a translation of the annotated set in four
other languages: French, Spanish, Portuguese, and Hindi. We evaluate the
in-domain, out-of-domain, and zero-shot cross-lingual performance of generative
IE models and find models trained on WebIE show better generalisability. We
also propose three training strategies that use entity linking as an auxiliary
task. Our experiments show that adding Entity-Linking objectives improves the
faithfulness of our generative IE models.
- Abstract(参考訳): 原文から構造化事実と接地事実を抽出することは情報抽出(IE)の基本課題である。
既存のIEデータセットは通常ウィキペディアの記事から収集され、ハイパーリンクを使用してエンティティをウィキデータナレッジベースにリンクする。
しかし、wikipediaでのみトレーニングされたモデルは、webドメインに適用すると制限があり、それらは、事実情報を持たないノイズの多いテキストやテキストを含んでいることが多い。
webieは、英語のコモンクロールコーパスから自動的に収集される1.6mの文からなる、最初の大規模なエンティティリンクのクローズドieデータセットである。
WebIEはまた、Web上のデータをよりよく反映するために、事実の3倍の文のような否定的な例も含んでいる。
私たちは、クラウドソーシングを通じてWebIEから約21Kのトリプルを注釈付けし、他の4つの言語(フランス語、スペイン語、ポルトガル語、ヒンディー語)で注釈付けされたセットの翻訳であるmWebIEを紹介します。
生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットのクロスランガル性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。
また,エンティティリンクを補助タスクとして使用する3つのトレーニング戦略を提案する。
実験の結果,Entity-Linkingの目的を付加することで,生成IEモデルの忠実度が向上することがわかった。
関連論文リスト
- Entity Insertion in Multilingual Linked Corpora: The Case of Wikipedia [14.221520251569173]
我々はLocEIと呼ばれるエンティティ挿入のためのフレームワークを開発し,その多言語版であるXLocEIを開発した。
XLocEIは全てのベースラインモデルより優れており、最小性能の低下でトレーニング中に見られない言語に対してゼロショットで適用可能であることを示す。
これらの発見は、例えばエディターが300以上のウィキペディアの言語バージョンにリンクを追加するのをサポートするために、実際にエンティティ挿入モデルを適用するのに重要である。
論文 参考訳(メタデータ) (2024-10-05T18:22:15Z) - ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - Mind2Web: Towards a Generalist Agent for the Web [25.363429937913065]
Mind2Webは、Webのためのジェネラリストエージェントの開発と評価のための最初のデータセットである。
31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、Mind2WebはジェネラリストWebエージェントを構築するために必要な3つの材料を提供する。
Mind2Webをベースとして,汎用的なWebエージェントを構築するために,大規模言語モデル(LLM)を最初に検討する。
論文 参考訳(メタデータ) (2023-06-09T17:44:31Z) - InstructIE: A Bilingual Instruction-based Information Extraction Dataset [44.65162892808696]
大きな言語モデルは、一般的な自然言語処理でうまく機能するが、その効果は情報抽出(IE)の亜最適である。
最近の研究によると、主な理由はIE命令に関する広範なデータが不足していることにある。
InstructIEは、12のドメインをカバーするバイリンガル命令ベースのIEデータセットである。
論文 参考訳(メタデータ) (2023-05-19T08:51:11Z) - Easy-to-Hard Learning for Information Extraction [57.827955646831526]
情報抽出システムは、構造化されていないテキストから構造化された情報を自動的に抽出することを目的としている。
本稿では,3段階,すなわち易解な段階,難解な段階,主段階の3段階からなる統合型易解学習フレームワークを提案する。
学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。
論文 参考訳(メタデータ) (2023-05-16T06:04:14Z) - A Suite of Generative Tasks for Multi-Level Multimodal Webpage
Understanding [66.6468787004067]
ウィキペディアのWebページスイート (WikiWeb2M) には, 関連画像, テキスト, 構造データを含む2Mページが含まれている。
我々は,最も関連性の高い画像とテキストをグローバルトークンとして選択し,Webページの他の部分へのコンテクストへの参加を可能にする,新しいアテンションメカニズムであるPrefix Globalを設計する。
論文 参考訳(メタデータ) (2023-05-05T16:38:05Z) - ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT [89.49161588240061]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。
大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。
ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文 参考訳(メタデータ) (2023-02-20T12:57:12Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。