論文の概要: Factual Inconsistencies in Multilingual Wikipedia Tables
- arxiv url: http://arxiv.org/abs/2507.18406v1
- Date: Thu, 24 Jul 2025 13:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.728204
- Title: Factual Inconsistencies in Multilingual Wikipedia Tables
- Title(参考訳): 複数言語ウィキペディア表におけるファクチュアル不整合
- Authors: Silvia Cappa, Lingxiao Kong, Pille-Riin Peet, Fanfu Wei, Yuchen Zhou, Jan-Christoph Kalo,
- Abstract要約: 本研究はウィキペディアの構造化コンテンツにおける言語間不整合について検討する。
ウィキペディアの多言語記事から表を収集・調整・分析する手法を開発した。
これらの洞察は、事実検証、多言語知識の相互作用、信頼性の高いAIシステムの設計に影響を及ぼす。
- 参考スコア(独自算出の注目度): 5.395647076142643
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Wikipedia serves as a globally accessible knowledge source with content in over 300 languages. Despite covering the same topics, the different versions of Wikipedia are written and updated independently. This leads to factual inconsistencies that can impact the neutrality and reliability of the encyclopedia and AI systems, which often rely on Wikipedia as a main training source. This study investigates cross-lingual inconsistencies in Wikipedia's structured content, with a focus on tabular data. We developed a methodology to collect, align, and analyze tables from Wikipedia multilingual articles, defining categories of inconsistency. We apply various quantitative and qualitative metrics to assess multilingual alignment using a sample dataset. These insights have implications for factual verification, multilingual knowledge interaction, and design for reliable AI systems leveraging Wikipedia content.
- Abstract(参考訳): ウィキペディアは、300以上の言語でコンテンツを扱う、グローバルにアクセス可能な知識ソースとして機能する。
同じトピックをカバーしているが、ウィキペディアの異なるバージョンは独立して書かれ、更新される。
これにより、百科事典やAIシステムの中立性と信頼性に影響を与える、現実的な矛盾が生じます。
本研究では,ウィキペディアの構造化コンテンツにおける言語間不整合について検討し,表形式のデータに着目した。
我々は、ウィキペディアの多言語記事から表を収集し、調整し、分析する手法を開発し、矛盾のカテゴリを定義した。
サンプルデータセットを用いて多言語アライメントを評価するために,様々な量的,質的な指標を適用した。
これらの洞察は、事実検証、多言語知識の相互作用、ウィキペディアコンテンツを活用した信頼性の高いAIシステムの設計に影響を及ぼす。
関連論文リスト
- WikiGap: Promoting Epistemic Equity by Surfacing Knowledge Gaps Between English Wikipedia and other Language Editions [31.58588164648108]
ウィキガップ(WikiGap)は、ウィキペディアの他のウィキペディアのインタフェースから得られる補完的な事実を抽出するシステムである。
具体的には、最近の多言語情報ギャップ発見法とユーザ中心の設計を組み合わせることで、WikiGapはフランス語、ロシア語、中国語のウィキペディアから補完的な情報にアクセスすることができる。
論文 参考訳(メタデータ) (2025-05-30T04:14:03Z) - On the effective transfer of knowledge from English to Hindi Wikipedia [4.427603894929721]
英語とヒンディー語の間の知識の共有性を高めるための軽量な枠組みを提案する。
英語のウィキペディアページが最新でない場合、我々のフレームワークはウィキペディア特有のスタイルに適合するように適応します。
本フレームワークは,ヒンディー語ウィキペディアのセクションに対して,自動的および人的判断に基づく評価に基づいて,ヒンディー語ウィキペディア記事の65%と62%を効果的に生成する。
論文 参考訳(メタデータ) (2024-12-07T17:43:21Z) - An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。
ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。
我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T23:07:18Z) - Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages [0.19698344608599344]
ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。
本フレームワークは,論文から抽出した言語に依存しない構造的特徴に基づく。
既存のウィキペディアの言語バージョンにあるすべての記事の特徴値と品質スコアでデータセットを構築しました。
論文 参考訳(メタデータ) (2024-04-15T13:07:31Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Language-agnostic Topic Classification for Wikipedia [1.950869817974852]
本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
論文 参考訳(メタデータ) (2021-02-26T22:17:50Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。