論文の概要: The Rise of AI-Generated Content in Wikipedia
- arxiv url: http://arxiv.org/abs/2410.08044v1
- Date: Thu, 10 Oct 2024 15:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:45:05.992510
- Title: The Rise of AI-Generated Content in Wikipedia
- Title(参考訳): ウィキペディアにおけるAI生成コンテンツの増加
- Authors: Creston Brooks, Samuel Eggert, Denis Peskoff,
- Abstract要約: 私たちは、プロプライエタリなAI検出ツールであるGPTZeroと、オープンソースの代替手段であるBinocularsを使って、最近作成されたWikipediaページでAI生成コンテンツの存在を低く設定しています。
しきい値はGPT-3.5以前の記事に対して1%の偽陽性率を達成するために調整されており、新たに作成されたウィキペディア記事の5%以上をAI生成としてフラグ付けしている。
フラッグ付きのウィキペディア記事は、典型的には品質が低く、しばしば自己宣伝的または特定の視点に向けて部分的である。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of AI-generated content in popular information sources raises significant concerns about accountability, accuracy, and bias amplification. Beyond directly impacting consumers, the widespread presence of this content poses questions for the long-term viability of training language models on vast internet sweeps. We use GPTZero, a proprietary AI detector, and Binoculars, an open-source alternative, to establish lower bounds on the presence of AI-generated content in recently created Wikipedia pages. Both detectors reveal a marked increase in AI-generated content in recent pages compared to those from before the release of GPT-3.5. With thresholds calibrated to achieve a 1% false positive rate on pre-GPT-3.5 articles, detectors flag over 5% of newly created English Wikipedia articles as AI-generated, with lower percentages for German, French, and Italian articles. Flagged Wikipedia articles are typically of lower quality and are often self-promotional or partial towards a specific viewpoint on controversial topics.
- Abstract(参考訳): 人気情報ソースにおけるAI生成コンテンツの増加は、説明責任、正確性、バイアス増幅に関する重大な懸念を提起する。
消費者に直接影響を与えること以外に、このコンテンツが広く存在していることは、巨大なインターネット網上でのトレーニング言語モデルの長期的な生存可能性に疑問を投げかけている。
私たちは、プロプライエタリなAI検出ツールであるGPTZeroと、オープンソースの代替手段であるBinocularsを使って、最近作成されたWikipediaページでAI生成コンテンツの存在を低く設定しています。
両方の検出器は、GPT-3.5のリリース前のものと比較して、最近のページでAI生成コンテンツが顕著に増加したことを示している。
しきい値はGPT-3.5以前の記事に対して1%の偽陽性率を達成するために調整され、新たに作成された英語ウィキペディア記事の5%以上をAI生成としてフラグ付けし、ドイツ語、フランス語、イタリア語記事の比率は低い。
フラッグ付きのウィキペディア記事は、典型的には品質が低く、しばしば議論の的となっているトピックに関する特定の視点に向けて自己宣伝的または部分的なものである。
関連論文リスト
- Suspected Undeclared Use of Artificial Intelligence in the Academic Literature: An Analysis of the Academ-AI Dataset [0.0]
アカデミックAIは、学術文献における未宣言のAI使用の疑いのある事例を文書化している。
宣言されていないAIは、引用基準が高く、記事処理料金が高いジャーナルに現れるようだ。
論文 参考訳(メタデータ) (2024-11-20T21:29:36Z) - Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - Disclosure of AI-Generated News Increases Engagement but Does Not Reduce Aversion, Despite Positive Quality Ratings [3.036383058306671]
ジャーナリズムにおけるAIの統合は、民主主義の機会とリスクの両方を提示している。
本研究では,AI支援記事とAI生成記事と人為的ニュース記事の認識品質について検討する。
論文 参考訳(メタデータ) (2024-09-05T13:12:16Z) - Orphan Articles: The Dark Matter of Wikipedia [13.290424502717734]
われわれは,他のウィキペディア記事からのリンクを含まない記事である孤児記事について,最初の体系的な研究を行っている。
すべての記事の約15%(8.8M)の驚くほど多くのコンテンツが、ウィキペディアをナビゲートする読者には事実上見えない。
また, 孤児に新たなリンク(脱孤児化)を追加することで, 統計的に有意な可視性向上につながるという疑似実験を通じて因果的証拠を提供する。
論文 参考訳(メタデータ) (2023-06-06T18:04:33Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to
GPT-5 All You Need? [112.12974778019304]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。
純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。
本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-21T10:09:47Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。