論文の概要: REVERSUM: A Multi-staged Retrieval-Augmented Generation Method to Enhance Wikipedia Tail Biographies through Personal Narratives
- arxiv url: http://arxiv.org/abs/2502.12137v1
- Date: Mon, 17 Feb 2025 18:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:54.662028
- Title: REVERSUM: A Multi-staged Retrieval-Augmented Generation Method to Enhance Wikipedia Tail Biographies through Personal Narratives
- Title(参考訳): ReVERSUM:ウィキペディアのタイル・バイオグラフィーをパーソナル・ナラティブを通じて強化する多段階検索型検索生成手法
- Authors: Sayantan Adak, Pauras Mangesh Meher, Paramita Das, Animesh Mukherjee,
- Abstract要約: 本研究は,ウィキペディアのBとCカテゴリの伝記記事を強化するための新しいアプローチを提案する。
複数段階の検索拡張生成手法を用いて、より知られていない記事の情報内容の充実を図る。
- 参考スコア(独自算出の注目度): 4.427603894929721
- License:
- Abstract: Wikipedia is an invaluable resource for factual information about a wide range of entities. However, the quality of articles on less-known entities often lags behind that of the well-known ones. This study proposes a novel approach to enhancing Wikipedia's B and C category biography articles by leveraging personal narratives such as autobiographies and biographies. By utilizing a multi-staged retrieval-augmented generation technique -- REVerSum -- we aim to enrich the informational content of these lesser-known articles. Our study reveals that personal narratives can significantly improve the quality of Wikipedia articles, providing a rich source of reliable information that has been underutilized in previous studies. Based on crowd-based evaluation, REVerSum generated content outperforms the best performing baseline by 17% in terms of integrability to the original Wikipedia article and 28.5\% in terms of informativeness. Code and Data are available at: https://github.com/sayantan11995/wikipedia_enrichment
- Abstract(参考訳): Wikipediaは、幅広いエンティティに関する事実情報の貴重なリソースである。
しかし、あまり知られていないエンティティに関する記事の品質は、よく知られたものよりも遅れていることが多い。
本研究では,自伝や伝記などの個人的物語を活用することで,ウィキペディアのBとCカテゴリの伝記記事を強化する新しいアプローチを提案する。
マルチステージ検索拡張生成技術であるREVerSumを利用することで、これらのあまり知られていない記事の情報内容を強化することを目指している。
本研究は、ウィキペディアの記事の質を著しく向上させ、過去の研究で未利用であった信頼できる情報の豊富な情報源を提供するものであることを明らかにした。
群衆による評価に基づいて、REVerSumが生成したコンテンツは、元のウィキペディア記事への統合性という点では17%、情報性という点では28.5\%で最高のパフォーマンスのベースラインを上回っている。
コードとデータは、https://github.com/sayantan11995/wikipedia_enrichment.comで入手できる。
関連論文リスト
- Automatic Quality Assessment of Wikipedia Articles -- A Systematic
Literature Review [0.8158530638728501]
ウィキペディアの記事の質を自動的に測定する既存の手法についてレビューする。
機械学習アルゴリズム、記事の特徴、品質指標、使用済みデータセットを特定し比較する。
私たちの分析が将来の研究者の現実を変えるのに役立つことを願っています。
論文 参考訳(メタデータ) (2023-10-03T17:45:39Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Wiki-Reliability: A Large Scale Dataset for Content Reliability on
Wikipedia [4.148821165759295]
我々は、幅広いコンテンツ信頼性の問題に注釈を付けた英語ウィキペディア記事の最初のデータセットを構築した。
このデータセットを構築するには、Wikipediaの「テンプレート」を利用します。
ウィキペディアで最も人気のある10の信頼性関連テンプレートを選択し、ウィキペディアの記事改訂のほぼ1Mのサンプルをポジティブまたはネガティブにラベル付ける効果的な方法を提案します。
論文 参考訳(メタデータ) (2021-05-10T05:07:03Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z) - Quantifying Engagement with Citations on Wikipedia [13.703047949952852]
300ページビューの1つは、参照クリックの結果である。
クリックはより短いページや低い品質のページで頻繁に行われる。
最近のコンテンツ、オープンアクセスソース、ライフイベントに関する参考資料が特に人気である。
論文 参考訳(メタデータ) (2020-01-23T15:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。