論文の概要: Are Large Language Models a Threat to Digital Public Goods? Evidence
from Activity on Stack Overflow
- arxiv url: http://arxiv.org/abs/2307.07367v1
- Date: Fri, 14 Jul 2023 14:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:41:46.508677
- Title: Are Large Language Models a Threat to Digital Public Goods? Evidence
from Activity on Stack Overflow
- Title(参考訳): 大型言語モデルはデジタル公共財に対する脅威か?
スタックオーバーフローのアクティビティからの証拠
- Authors: Maria del Rio-Chanona, Nadzeya Laurentsyeva, Johannes Wachs
- Abstract要約: 本稿では,ChatGPTのリリースによってWeb上の人為的オープンデータがどのように変化したかを検討する。
また,ChatGPTへのアクセスが制限されているロシアや中国と比較して,Stack Overflowの活動は大幅に減少した。
- 参考スコア(独自算出の注目度): 1.5039745292757671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models like ChatGPT efficiently provide users with information
about various topics, presenting a potential substitute for searching the web
and asking people for help online. But since users interact privately with the
model, these models may drastically reduce the amount of publicly available
human-generated data and knowledge resources. This substitution can present a
significant problem in securing training data for future models. In this work,
we investigate how the release of ChatGPT changed human-generated open data on
the web by analyzing the activity on Stack Overflow, the leading online Q\&A
platform for computer programming. We find that relative to its Russian and
Chinese counterparts, where access to ChatGPT is limited, and to similar forums
for mathematics, where ChatGPT is less capable, activity on Stack Overflow
significantly decreased. A difference-in-differences model estimates a 16\%
decrease in weekly posts on Stack Overflow. This effect increases in magnitude
over time, and is larger for posts related to the most widely used programming
languages. Posts made after ChatGPT get similar voting scores than before,
suggesting that ChatGPT is not merely displacing duplicate or low-quality
content. These results suggest that more users are adopting large language
models to answer questions and they are better substitutes for Stack Overflow
for languages for which they have more training data. Using models like ChatGPT
may be more efficient for solving certain programming problems, but its
widespread adoption and the resulting shift away from public exchange on the
web will limit the open data people and models can learn from in the future.
- Abstract(参考訳): ChatGPTのような大きな言語モデルは、ユーザーが様々なトピックに関する情報を効率的に提供し、ウェブを検索し、オンラインで助けを求めるための代替手段を提供する。
しかし、ユーザーはモデルとプライベートにやりとりするので、これらのモデルは、公開された人為的なデータと知識リソースの量を大幅に削減する可能性がある。
この代替は将来のモデルのトレーニングデータを確保する上で重要な問題となる可能性がある。
本稿では,コンピュータプログラミングにおける主要なオンラインq\&aプラットフォームであるstack overflowのアクティビティを分析し,chatgptのリリースによってweb上で生成されたオープンデータがどのように変化したかを検討する。
また,ChatGPT へのアクセスが制限されているロシアや中国と,ChatGPT の能力が低い数学フォーラムでは,Stack Overflow 上での活動が大幅に減少した。
差分差分モデルでは、Stack Overflowの週記事の16倍の減少を見積もっている。
この効果は時間とともに大きくなり、最も広く使われているプログラミング言語に関する記事の方が大きい。
ChatGPT以降の投稿は、以前と同様の投票スコアを得ており、ChatGPTは単に重複や低品質のコンテンツを削除しているだけではないことを示唆している。
これらの結果から,より多くのトレーニングデータを持つ言語に対して,Stack Overflowの代替として,大きな言語モデルを採用するユーザが増えることが示唆されている。
chatgptのようなモデルを使うことは、特定のプログラミング問題を解決するのに効率的かもしれないが、広く採用され、web上の公開交換から遠ざかることによって、人々やモデルが将来学べるオープンデータを制限することになる。
関連論文リスト
- Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。
90%以上の精度でユーザの会話の話題を学習することができるかを示す。
相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文 参考訳(メタデータ) (2024-10-22T16:51:36Z) - Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures [0.6990493129893112]
本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。
この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
論文 参考訳(メタデータ) (2023-07-10T08:20:34Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z) - ChatGPT to Replace Crowdsourcing of Paraphrases for Intent
Classification: Higher Diversity and Comparable Model Robustness [3.126776200660494]
また,ChatGPTで生成したパラフレーズはより多様であり,少なくともロバストなモデルであることを示す。
伝統的に、クラウドソーシングは、さまざまな人間の知性タスクに対するソリューションの獲得に使われてきた。
論文 参考訳(メタデータ) (2023-05-22T11:46:32Z) - Phoenix: Democratizing ChatGPT across Languages [68.75163236421352]
我々は大規模な言語モデル「フェニックス」をリリースし、オープンソースの英語モデルと中国語モデルの間で競合する性能を実現した。
この作業は、特にOpenAIやローカルなゴーバーメントの制限により、人々がChatGPTを使えない国では、ChatGPTをよりアクセスしやすいものにする上で有益であると考えています。
論文 参考訳(メタデータ) (2023-04-20T16:50:04Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking
about [15.19126287569545]
本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。
この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。
調査では、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域について洞察を与えている事例を特定した。
論文 参考訳(メタデータ) (2023-04-06T18:42:47Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。