論文の概要: MegaWika 2: A More Comprehensive Multilingual Collection of Articles and their Sources
- arxiv url: http://arxiv.org/abs/2508.03828v1
- Date: Tue, 05 Aug 2025 18:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.413729
- Title: MegaWika 2: A More Comprehensive Multilingual Collection of Articles and their Sources
- Title(参考訳): MegaWika 2: より総合的な多言語コレクションとそのソース
- Authors: Samuel Barham, Chandler May, Benjamin Van Durme,
- Abstract要約: MegaWika 2はオリジナルのMegaWikaから大きくアップグレードされ、記事数は6倍、完全にスクラップされた引用の2倍になった。
MegaWikaとMegaWika 2はともにレポート生成研究を支援している。
- 参考スコア(独自算出の注目度): 31.3275742736405
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce MegaWika 2, a large, multilingual dataset of Wikipedia articles with their citations and scraped web sources; articles are represented in a rich data structure, and scraped source texts are stored inline with precise character offsets of their citations in the article text. MegaWika 2 is a major upgrade from the original MegaWika, spanning six times as many articles and twice as many fully scraped citations. Both MegaWika and MegaWika 2 support report generation research ; whereas MegaWika also focused on supporting question answering and retrieval applications, MegaWika 2 is designed to support fact checking and analyses across time and language.
- Abstract(参考訳): 記事はリッチなデータ構造で表現され、スクラップされたソーステキストは、記事テキストの引用の正確な文字オフセットでインラインに格納される。
MegaWika 2はオリジナルのMegaWikaから大きくアップグレードされ、記事数は6倍、完全にスクラップされた引用の2倍になった。
MegaWikaとMegaWika 2はレポート生成研究をサポートし、MegaWikaは質問応答と検索アプリケーションもサポートしている。
関連論文リスト
- Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism [9.212370563134206]
ウェブ上のコンテンツは、しばしば多くの言語に翻訳されることを示し、これらのマルチウェイ翻訳の低品質は、機械翻訳(MT)を用いて作成された可能性が高いことを示している。
また、多くの言語に翻訳されるコンテンツの種類の選択バイアスの証拠も見出され、低品質の英語コンテンツがMTを介して多くの低リソース言語に翻訳されるのと一致している。
私たちの研究は、Webから取り除かれたモノリンガルデータとバイリンガルデータの両方について、多言語大言語モデルのようなトレーニングモデルに関する深刻な懸念を提起します。
論文 参考訳(メタデータ) (2024-01-11T08:56:13Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - On the Influence of Machine Translation on Language Origin Obfuscation [0.3437656066916039]
本稿では、広く使われている2つの商用機械翻訳システムの翻訳結果から、ソースコードを検出する能力について分析する。
評価の結果,十分な量の翻訳文を含む文書に対して,ソースコードを高精度に再構築できることが示唆された。
論文 参考訳(メタデータ) (2021-06-24T08:33:24Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。