論文の概要: How Similar Are Grokipedia and Wikipedia? A Multi-Dimensional Textual and Structural Comparison
- arxiv url: http://arxiv.org/abs/2510.26899v2
- Date: Mon, 03 Nov 2025 12:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 14:12:28.025978
- Title: How Similar Are Grokipedia and Wikipedia? A Multi-Dimensional Textual and Structural Comparison
- Title(参考訳): GrokipediaとWikipediaはどの程度似ているか? 多次元テキストと構造の比較
- Authors: Taha Yasseri,
- Abstract要約: イーロン・マスクのxAIが開発したAI生成百科事典であるGrokipediaは、ウィキペディアのイデオロギーと構造的偏見に対する反応として発表された。
本研究は,GrokipediaとWikipediaの1,800のマッチング記事の大規模比較を行った。
語彙的豊かさ,可読性,構造的構造,参照密度,意味的類似性にまたがる指標を用いて,両プラットフォームが形と実体の密接な整合性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The launch of Grokipedia, an AI-generated encyclopedia developed by Elon Musk's xAI, was presented as a response to perceived ideological and structural biases in Wikipedia, aiming to produce "truthful" entries via the large language model Grok. Yet whether an AI-driven alternative can escape the biases and limitations of human-edited platforms remains unclear. This study undertakes a large-scale computational comparison of 1,800 matched article pairs between Grokipedia and Wikipedia, drawn from the 2,000 most-edited Wikipedia pages. Using metrics across lexical richness, readability, structural organization, reference density, and semantic similarity, we assess how closely the two platforms align in form and substance. The results show that while Grokipedia exhibits strong semantic and stylistic alignment with Wikipedia, it typically produces longer but less lexically diverse articles, with fewer references per word and greater structural variability. These findings suggest that AI-generated encyclopedic content currently mirrors Wikipedia's informational scope but diverges in editorial norms, favoring narrative expansion over citation-based verification. The implications highlight new tensions around transparency, provenance, and the governance of knowledge in an era of automated text generation.
- Abstract(参考訳): イーロン・マスクのxAIが開発したAI生成百科事典であるGrokipediaの立ち上げは、ウィキペディアのイデオロギー的・構造的偏見に対する反応として発表された。
しかし、AIによる代替手段が、人間が編集したプラットフォームのバイアスや限界から逃れられるかどうかはまだ不明だ。
本研究は、2000ページのウィキペディアページから抽出した、GrokipediaとWikipediaの1,800のマッチング記事の大規模な比較を行った。
語彙的豊かさ,可読性,構造的構造,参照密度,意味的類似性にまたがる指標を用いて,両プラットフォームが形と実体の密接な整合性を評価する。
結果は、Grokipediaはウィキペディアと強い意味的・様式的な整合性を示すが、通常、単語1語あたりの参照が少なく、構造的多様性も大きい長いが語彙的には多様でない記事を生成することを示している。
これらの結果は、現在AIが生成した百科事典コンテンツはウィキペディアの情報範囲を反映しているが、編集基準は異なっており、引用に基づく検証よりも物語の拡張を好んでいることを示唆している。
この意味は、自動化されたテキスト生成の時代における透明性、証明、知識のガバナンスに関する新たな緊張を浮き彫りにする。
関連論文リスト
- Factual Inconsistencies in Multilingual Wikipedia Tables [5.395647076142643]
本研究はウィキペディアの構造化コンテンツにおける言語間不整合について検討する。
ウィキペディアの多言語記事から表を収集・調整・分析する手法を開発した。
これらの洞察は、事実検証、多言語知識の相互作用、信頼性の高いAIシステムの設計に影響を及ぼす。
論文 参考訳(メタデータ) (2025-07-24T13:46:14Z) - Characterizing Knowledge Manipulation in a Russian Wikipedia Fork [18.630486406259426]
最近ローンチされたウェブサイトRuwikiは、ロシアの法律に従ってオリジナルのウィキペディアのコンテンツをコピーして修正した。
この記事では、このロシアのウィキペディアのフォークを詳細に分析する。
本論文では,原版に対する主な変更を特徴付ける手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T19:30:30Z) - QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。
このフレームワークを使って$textbfQUDsim$を作ります。
QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文 参考訳(メタデータ) (2025-04-12T23:46:09Z) - Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset [10.756673240445709]
まず、正当性と偽のウィキペディア記事の類似点と相違点を体系的に分析する。
そして、311のホックス記事を集めたHoaxpediaを紹介します。
以上の結果から,ウィキペディアにおける偽コンテンツの検出は,コンテンツだけでは難しいが実現不可能であることが示唆された。
論文 参考訳(メタデータ) (2024-05-03T15:25:48Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Language-agnostic Topic Classification for Wikipedia [1.950869817974852]
本稿では,論文をトピックの分類に分類するための記事のリンクに基づく言語に依存しないアプローチを提案する。
言語に依存したアプローチのパフォーマンスにマッチするが、よりシンプルで、カバー範囲がずっと大きいことを示す。
論文 参考訳(メタデータ) (2021-02-26T22:17:50Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。