論文の概要: BuyTheBy: A dataset of 18,710 text-based paper mill advertisements with 51,812 timestamped prices
- arxiv url: http://arxiv.org/abs/2604.24576v1
- Date: Tue, 21 Apr 2026 21:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.108254
- Title: BuyTheBy: A dataset of 18,710 text-based paper mill advertisements with 51,812 timestamped prices
- Title(参考訳): BuyTheBy: テキストベースの製紙広告18,710件、価格は51,812タイムスタンプ
- Authors: Reese AK Richardson, Spencer S Hong, Anna Abalkina,
- Abstract要約: BuyTheByは、タイムスタンプ付きテキストベースのペーパーミル広告の巨大な注釈付きデータセットだ。
データセットは18,710件の個別広告で構成され、うち15,839件には価格が記載されている。
なかには、51,812のタイムスタンプ付き価格データを持つ14種類の製品カテゴリーで、5,567種類の製品で販売されている20,598のポジションがある。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study of paper mills and similar businesses operating in the market for academic and education fraud services is frustrated by the lack of market price data on their various offerings. Here, we assemble BuyTheBy, a large, annotated dataset of timestamped, text-based paper mill advertisements from seven businesses operating out of seven different countries. The dataset consists of 18,710 individual advertisements, of which 15,839 have prices listed. Among these there are 20,598 positions listed as for sale on 5,567 unique products in 14 different product categories with 51,812 timestamped price data points. We perform elementary analysis of this dataset to demonstrate its utility for quantitative understanding of markets for academic fraud services and suggest future use cases.
- Abstract(参考訳): 学術・教育詐欺サービス市場における製紙業等の研究は、各種商品の市場価格データが不足していることに不満を呈している。
BuyTheByは、7つの国で運営されている7つのビジネスのタイムスタンプ付きテキストベースの製紙広告の巨大な注釈付きデータセットだ。
データセットは18,710件の個別広告で構成され、うち15,839件には価格が記載されている。
なかには、51,812のタイムスタンプ付き価格データを持つ14種類の製品カテゴリーで、5,567種類の製品で販売されている20,598のポジションがある。
本データセットの初等的分析を行い,学術不正サービスの市場を定量的に把握し,今後のユースケースを提案する。
関連論文リスト
- Data marketplaces can increase the willingness to share social media data at low prices [8.901073744693315]
本稿では、データマーケットプレイスが個人に対してTwitterデータパッケージの販売意欲を高めることができるかどうかを検討する。
また、プライバシー保護とデータ購入者のタイプが、これらの決定にどのように影響するかについても検討している。
論文 参考訳(メタデータ) (2025-06-19T21:31:42Z) - A Survey on Data Markets [73.07800441775814]
より大きな福祉のためのトレーディングデータの増加は、データ市場の台頭につながっている。
データ市場とは、データセットやデータデリバティブを含むデータプロダクトの交換が行われるメカニズムである。
これは、価格やデータの分散など、いくつかの機能が相互作用するコーディネートメカニズムとして機能する。
論文 参考訳(メタデータ) (2024-11-09T15:09:24Z) - Semi-strong Efficient Market of Bitcoin and Twitter: an Analysis of Semantic Vector Spaces of Extracted Keywords and Light Gradient Boosting Machine Models [3.1804434212808834]
本研究は,5年間の変動期間におけるビットコイン市場における効率的市場仮説の検証を延長するものである。
ターゲットトピック"Bitcoin"を含む28,739,514の資格付きツイートを分析します
以上の結果から, 78.06% (83.08%), 84.63% (87.77%), 94.03% (94.60%) の時間帯, 4時間ごと, 毎日の強気(ビーリッシュ)市場の動きは, オーガニックツイート内での公開情報によるものであることが示唆された。
論文 参考訳(メタデータ) (2024-09-24T11:42:23Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - A Survey of Data Pricing for Data Marketplaces [77.3189288320768]
本稿では,既存のデータ価格研究の現状を概観する。
我々の重要な貢献は、データ価格を決定する異なる属性を統一するデータ価格研究の新しい分類である。
論文 参考訳(メタデータ) (2023-03-07T04:35:56Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - OSOUM Framework for Trading Data Research [79.0383470835073]
私たちは、私たちの知る限り、最初のオープンソースのシミュレーションプラットフォームであるOpen SOUrce Market Simulator(OSOUM)を提供して、トレーディング市場、特にデータ市場を分析します。
我々は、購入に利用可能なさまざまなデータセットを所有する売り手と、購入に有効な適切なデータセットを検索する買い手という2つのタイプのエージェントからなる、特定のデータ市場モデルを記述し、実装する。
データ市場を扱うための商用フレームワークはすでに存在していますが、購入者および販売者の両方が(データ)市場に参加することの可能な振る舞いをシミュレートするための、自由で広範なエンドツーエンドの研究ツールを提供しています。
論文 参考訳(メタデータ) (2021-02-18T09:20:26Z) - A Survey on Data Pricing: from Economics to Data Science [61.72030615854597]
データ価格の背景にある様々なモチベーションを調べ、データ価格の経済性を理解する。
デジタル製品とデータ製品の両方について論じる。
我々は、今後の仕事の一連の課題と方向性を考えます。
論文 参考訳(メタデータ) (2020-09-09T19:31:38Z) - Impact of News on the Commodity Market: Dataset and Results [0.0]
本稿では,過去の動きや価格の予測方向といった情報を抽出する枠組みを提案する。
我々は、このフレームワークをコモディティ"ゴールド"に適用し、11,412人の注釈付きニュース見出しのデータセットを使用して機械学習モデルをトレーニングする。
我々は,ニュースフローが金価格に与える影響を検証し,我々の枠組みから得られた情報が将来の金価格に大きく影響することを確認する。
論文 参考訳(メタデータ) (2020-09-09T10:38:48Z) - A Tweet-based Dataset for Company-Level Stock Return Prediction [8.606705921815985]
本稿では,1日,2日,3日,および7日の株価リターンに対するツイートベースの影響を企業レベルで分析するデータセットを提案する。
我々のデータセットは、英語のtwitterから852,231のラベル付きインスタンスで構成されており、また85,176のラベル付きインスタンスのクリーン化されたサブセットをコミュニティにリリースしています。
論文 参考訳(メタデータ) (2020-06-17T08:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。