論文の概要: Benchmark Datasets for Lead-Lag Forecasting on Social Platforms
- arxiv url: http://arxiv.org/abs/2511.03877v1
- Date: Wed, 05 Nov 2025 21:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.223322
- Title: Benchmark Datasets for Lead-Lag Forecasting on Social Platforms
- Title(参考訳): ソーシャルプラットフォーム上でのリードラグ予測のためのベンチマークデータセット
- Authors: Kimia Kazemian, Zhenzhen Liu, Yangfanyu Yang, Katie Z Luo, Shuhan Gu, Audrey Du, Xinyu Yang, Jack Jansons, Kilian Q Weinberger, John Thickstun, Yian Yin, Sarah Dean,
- Abstract要約: リードラグ予測:早期使用チャンネル(リード)が与えられると、相関するが時間的に変化する結果チャネル(ラグ)を予測する。
我々は、arXivとGitHubの2つの高ボリュームベンチマークデータセットと、類似のリードラグダイナミックスを備えた追加ドメインの概要を提示する。
我々のデータセットは、長年にわたって長い水平運動を捉え、結果の全スペクトルにまたがって、リードラグ予測のための理想的なテストベッドを提供します。
- 参考スコア(独自算出の注目度): 30.166429756385767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social and collaborative platforms emit multivariate time-series traces in which early interactions-such as views, likes, or downloads-are followed, sometimes months or years later, by higher impact like citations, sales, or reviews. We formalize this setting as Lead-Lag Forecasting (LLF): given an early usage channel (the lead), predict a correlated but temporally shifted outcome channel (the lag). Despite the ubiquity of such patterns, LLF has not been treated as a unified forecasting problem within the time-series community, largely due to the absence of standardized datasets. To anchor research in LLF, here we present two high-volume benchmark datasets-arXiv (accesses -> citations of 2.3M papers) and GitHub (pushes/stars -> forks of 3M repositories)-and outline additional domains with analogous lead-lag dynamics, including Wikipedia (page views -> edits), Spotify (streams -> concert attendance), e-commerce (click-throughs -> purchases), and LinkedIn profile (views -> messages). Our datasets provide ideal testbeds for lead-lag forecasting, by capturing long-horizon dynamics across years, spanning the full spectrum of outcomes, and avoiding survivorship bias in sampling. We documented all technical details of data curation and cleaning, verified the presence of lead-lag dynamics through statistical and classification tests, and benchmarked parametric and non-parametric baselines for regression. Our study establishes LLF as a novel forecasting paradigm and lays an empirical foundation for its systematic exploration in social and usage data. Our data portal with downloads and documentation is available at https://lead-lag-forecasting.github.io/.
- Abstract(参考訳): ソーシャルで協調的なプラットフォームは、初期のインタラクション(ビュー、お気に入り、ダウンロードなど)が続く、多変量の時系列を出力する。
我々はこの設定をLLF(Lead-Lag Forecasting)として定式化し、早期使用チャンネル(リード)が与えられると、相関性はあるが時間的に変化する結果チャネル(ラグ)を予測する。
このようなパターンの多様さにもかかわらず、LLFは時系列コミュニティにおいて統一的な予測問題として扱われていない。
LLFの研究を支援するために、我々は2つの高ボリュームベンチマークデータセットarXiv(アクセス ->2.3M論文の引用 ->3Mレポジトリのフォーク ->3Mレポジトリのフォーク)と、Wikipedia(ページビュー ->編集)、Spotify(ストリーム ->コンサート出席)、eコマース(クリックスルー ->購入)、LinkedInプロファイル(ビュー ->メッセージ)を含む類似のリードラグダイナミクスを備えた追加ドメインを概説する。
我々のデータセットは、長年にわたって長い水平変動を捉え、結果の全スペクトルにまたがり、サンプリングにおける生存バイアスを避けることで、リードラグ予測に理想的なテストベッドを提供する。
データキュレーションとクリーニングに関するすべての技術的詳細を文書化し、統計的および分類テストを通じてリードラグダイナミクスの存在を確認し、回帰のためのパラメトリックおよび非パラメトリックベースラインをベンチマークした。
本研究は, LLFを新たな予測パラダイムとして確立し, 社会・利用データにおける体系的探索の実証的基礎を築いた。
ダウンロードとドキュメントを備えた当社のデータポータルは、https://lead-lag-forecasting.github.io/で公開されています。
関連論文リスト
- Not in Sync: Unveiling Temporal Bias in Audio Chat Models [59.146710538620816]
大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
論文 参考訳(メタデータ) (2025-10-14T06:29:40Z) - HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting? [1.3654846342364308]
長軸予測を厳格に評価するために設計された最初のベンチマークである HoTPP を紹介する。
我々は,広く使用されている評価指標の欠点を特定し,理論的に基礎付けられたT-mAP尺度を提案し,人気モデルの効率的な実装を提供する。
我々は,自己回帰と強度に基づく損失が予測品質に与える影響を分析し,今後の研究に向けた有望な方向性を概説する。
論文 参考訳(メタデータ) (2024-06-20T14:09:00Z) - FreDF: Learning to Forecast in the Frequency Domain [54.2091536822376]
時系列モデリングは、歴史的データと将来のシーケンスの両方における自己相関による固有の課題を提示する。
本稿では,周波数領域の予測学習によりラベル自己相関を緩和する周波数強調直接予測(FreDF)を提案する。
論文 参考訳(メタデータ) (2024-02-04T08:23:41Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。