論文の概要: What if we had no Wikipedia? Domain-independent Term Extraction from a
Large News Corpus
- arxiv url: http://arxiv.org/abs/2009.08240v1
- Date: Thu, 17 Sep 2020 12:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 09:09:46.516067
- Title: What if we had no Wikipedia? Domain-independent Term Extraction from a
Large News Corpus
- Title(参考訳): もしwikipediaがなかったら?
大規模ニュースコーパスからのドメイン非依存用語抽出
- Authors: Yonatan Bilu, Shai Gretz, Edo Cohen and Noam Slonim
- Abstract要約: 我々は、巨大なニュースコーパスの中で「ウィキにふさわしい」用語を特定し、これが実際のウィキペディアのエントリに依存していないか、最小限に抑えられるかを確認することを目指している。
我々の研究はドメイン固有の自動用語抽出問題に新たな光を当て、その問題はまだドメインに依存しない変種である。
- 参考スコア(独自算出の注目度): 9.081222401894552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most impressive human endeavors of the past two decades is the
collection and categorization of human knowledge in the free and accessible
format that is Wikipedia. In this work we ask what makes a term worthy of
entering this edifice of knowledge, and having a page of its own in Wikipedia?
To what extent is this a natural product of on-going human discourse and
discussion rather than an idiosyncratic choice of Wikipedia editors?
Specifically, we aim to identify such "wiki-worthy" terms in a massive news
corpus, and see if this can be done with no, or minimal, dependency on actual
Wikipedia entries. We suggest a five-step pipeline for doing so, providing
baseline results for all five, and the relevant datasets for benchmarking them.
Our work sheds new light on the domain-specific Automatic Term Extraction
problem, with the problem at hand being a domain-independent variant of it.
- Abstract(参考訳): 過去20年で最も印象的な人間の努力の1つは、wikipediaである自由でアクセス可能なフォーマットで人間の知識の収集と分類である。
この研究で我々は、この知識の領域に入り、ウィキペディアに独自のページを持つのにふさわしい用語は何なのかを尋ねる。
これはwikipedia編集者の独特な選択というよりも、人間の談話や議論の自然な産物なのか?
具体的には、このような「wikiにふさわしい」用語を巨大なニュースコーパスで特定し、それが実際のwikipediaエントリに依存することなく、あるいは最小限でできるかどうかを確認することを目的としています。
5つすべてに対してベースライン結果を提供し、それらをベンチマークするための関連するデータセットを提供する。
我々の研究はドメイン固有の自動用語抽出問題に新たな光を当て、その問題はまだドメインに依存しない変種である。
関連論文リスト
- Orphan Articles: The Dark Matter of Wikipedia [13.290424502717734]
われわれは,他のウィキペディア記事からのリンクを含まない記事である孤児記事について,最初の体系的な研究を行っている。
すべての記事の約15%(8.8M)の驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えない。
また, 孤児に新たなリンク(脱孤児化)を追加することで, 統計的に有意な可視性向上につながるという疑似実験を通じて因果的証拠を提供する。
論文 参考訳(メタデータ) (2023-06-06T18:04:33Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - The Web Is Your Oyster -- Knowledge-Intensive NLP against a Very Large
Web Corpus [76.9522248303716]
我々は,既存のKI-NLPタスクを評価するための新しいセットアップを提案し,背景コーパスをユニバーサルなWebスナップショットに一般化する。
当初Wikipediaで開発された標準のKI-NLPベンチマークであるKILTを再利用し,CCNetのサブセットであるSphere corpusの使用をシステムに依頼した。
カバー範囲の潜在的なギャップ、スケールの課題、構造の欠如、品質の低下にもかかわらず、Sphereからの検索によって、最新の最先端のシステムがウィキペディアベースのモデルに適合し、さらに優れています。
論文 参考訳(メタデータ) (2021-12-18T13:15:34Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Architecture for a multilingual Wikipedia [0.0]
我々はこの問題にもっと効果的に取り組むために新しいアプローチが必要だと主張する。
本稿では,この目的を達成するシステムのためのアーキテクチャを提案する。
ゴールは2つの部分に分かれている: 抽象ウィキペディアと呼ばれるプロジェクト内の抽象的な表記法でコンテンツを作成し維持すること、そしてこの表記法を自然言語に翻訳できるWikilambdaと呼ばれるインフラストラクチャを作成する。
論文 参考訳(メタデータ) (2020-04-08T22:25:10Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z) - WikiHist.html: English Wikipedia's Full Revision History in HTML Format [12.86558129722198]
我々は,マークアップの局所的な例を用いて大量のwikitextを解析する並列化アーキテクチャを開発した。
我々は、ウィキペディアのハイパーリンクの実証分析において、生のウィキテキストよりもWikiHist.htmlの利点を強調した。
論文 参考訳(メタデータ) (2020-01-28T10:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。