論文の概要: Descartes: Generating Short Descriptions of Wikipedia Articles
- arxiv url: http://arxiv.org/abs/2205.10012v1
- Date: Fri, 20 May 2022 08:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 14:25:07.109518
- Title: Descartes: Generating Short Descriptions of Wikipedia Articles
- Title(参考訳): Descartes:ウィキペディア記事の短い記述を生成する
- Authors: Marija Sakota, Maxime Peyrard, Robert West
- Abstract要約: ウィキペディアの記事の短い記述を自動的に生成する問題を紹介・解決する。
デカルト(Descartes)は、人間の編集者と同等に動作した記述を生成できるモデルである。
私たちの研究は、ウィキペディアの編集者が、900万以上の記事がまだ欠落している記事の短い説明を提供するのを助けるための、実践的な応用を直接持っています。
- 参考スコア(独自算出の注目度): 37.53434446908093
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce and tackle the problem of automatically generating short
descriptions of Wikipedia articles (e.g., Belgium has a short description
Country in Western Europe). We introduce Descartes, a model that can generate
descriptions performing on par with human editors. Our human evaluation results
indicate that Descartes is preferred over editor-written descriptions about 50%
of time. Further manual analysis show that Descartes generates descriptions
considered as "valid" for 91.3% of articles, this is the as same editor-written
descriptions. Such performances are made possible by integrating other signals
naturally existing in Wikipedia: (i) articles about the same entity in
different languages, (ii) existing short descriptions in other languages, and
(iii) structural information from Wikidata. Our work has direct practical
applications in helping Wikipedia editors to provide short descriptions for the
more than 9 million articles still missing one. Finally, our proposed
architecture can easily be re-purposed to address other information gaps in
Wikipedia.
- Abstract(参考訳): 我々は、ウィキペディアの記事の短い記述を自動的に生成する問題(例えば、ベルギーは西ヨーロッパに短い記述国を持っている)を紹介し、対処する。
descartesは、人間のエディタと同等に実行される記述を生成できるモデルである。
人間の評価結果から,Descartes は編集者による記述よりも約50%の時間で好ましいことが示唆された。
さらに手動で分析したところ、デカルトは91.3%の論文で「無効」と見なされる記述を生成する。
これらのパフォーマンスは、ウィキペディアに自然に存在する他の信号を統合することで実現される。
(i)異なる言語における同一の実体に関する記事
(二)他言語における既存の短い記述、及び
(iii)ウィキデータからの構造情報。
我々の研究は、ウィキペディアの編集者が、まだ不足している900万以上の記事に対して短い説明を提供するのを助けるために、直接の実用的応用をもたらしています。
最後に、提案したアーキテクチャはウィキペディアの他の情報ギャップに対処するために簡単に再利用できる。
関連論文リスト
- An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。
ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。
我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T23:07:18Z) - Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models [11.597314728459573]
我々は、大きな言語モデルを用いて、ウィキペディアのページに匹敵する幅と深さの長い記事をスクラッチから書く方法を研究した。
本稿では,検索と複数パースペクティブ質問応答によるトピックアウトライン生成のための記述システムSTORMを提案する。
論文 参考訳(メタデータ) (2024-02-22T01:20:17Z) - WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in
Wikipedia [14.325320851640084]
ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。
それぞれの文は、英語のウィキペディアの改訂履歴全体から抽出される。
WikiSQEには約3.4Mの文と153の品質ラベルがある。
論文 参考訳(メタデータ) (2023-05-10T06:45:13Z) - Kuaipedia: a Large-scale Multi-modal Short-video Encyclopedia [59.47639408597319]
Kuaipediaは、アイテム、アスペクト、ショートビデオからなる大規模なマルチモーダル百科事典である。
これは中国で有名なショートビデオプラットフォームKuaishouの何十億ものビデオから抽出されたものだ。
論文 参考訳(メタデータ) (2022-10-28T12:54:30Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。