論文の概要: Evidence for Daily and Weekly Periodic Variability in GPT-4o Performance
- arxiv url: http://arxiv.org/abs/2602.15889v1
- Date: Fri, 06 Feb 2026 13:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.69175
- Title: Evidence for Daily and Weekly Periodic Variability in GPT-4o Performance
- Title(参考訳): GPT-4oにおける日・週ごとの変動の証拠
- Authors: Paul Tschisgale, Peter Wulff,
- Abstract要約: 大規模言語モデル (LLM) は研究にますます使われている。
この研究の多くは、固定条件下でのLLM性能が時間不変であると暗黙的に仮定している。
GPT-4oの平均成績の経時的変動について縦断的研究を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used in research both as tools and as objects of investigation. Much of this work implicitly assumes that LLM performance under fixed conditions (identical model snapshot, hyperparameters, and prompt) is time-invariant. If average output quality changes systematically over time, this assumption is violated, threatening the reliability, validity, and reproducibility of findings. To empirically examine this assumption, we conducted a longitudinal study on the temporal variability of GPT-4o's average performance. Using a fixed model snapshot, fixed hyperparameters, and identical prompting, GPT-4o was queried via the API to solve the same multiple-choice physics task every three hours for approximately three months. Ten independent responses were generated at each time point and their scores were averaged. Spectral (Fourier) analysis of the resulting time series revealed notable periodic variability in average model performance, accounting for approximately 20% of the total variance. In particular, the observed periodic patterns are well explained by the interaction of a daily and a weekly rhythm. These findings indicate that, even under controlled conditions, LLM performance may vary periodically over time, calling into question the assumption of time invariance. Implications for ensuring validity and replicability of research that uses or investigates LLMs are discussed.
- Abstract(参考訳): 大型言語モデル (LLM) は、ツールや調査の対象として、研究にますます利用されている。
この研究の多くは、固定条件下でのLLM性能(識別モデルスナップショット、ハイパーパラメータ、プロンプト)が時間不変であると暗黙的に仮定している。
平均的な出力品質が時間とともに体系的に変化すると、この仮定は違反し、結果の信頼性、妥当性、再現性を脅かす。
この仮定を実証的に検討するため,GPT-4oの平均的性能の経時的変動について縦断的研究を行った。
固定されたモデルスナップショット、固定されたハイパーパラメータ、同じプロンプトを使用して、GPT-4oはAPIを介してクエリされ、3時間ごとに約3ヶ月間同じ多重選択物理タスクが解決された。
それぞれの時点に10の独立した応答が生成され,そのスコアが平均値となった。
得られた時系列のスペクトル(フーリエ)分析により,平均モデル性能における顕著な周期的変動が明らかとなり,全変動の約20%を占めた。
特に、観察された周期パターンは、毎日のリズムと毎週のリズムの相互作用によってよく説明される。
これらの結果から, 制御条件下であっても, LLMの性能は時間とともに周期的に変化し, 時間差の仮定に疑問を呈する可能性が示唆された。
LLMを用いた研究の妥当性と再現性を確保することの意味について論じる。
関連論文リスト
- PHAT: Modeling Period Heterogeneity for Multivariate Time Series Forecasting [30.347634829157766]
実世界のデータの周期性をモデル化するためのPHAT(Period Heterogeneity-Aware Transformer)を提案する。
バケット内の相互作用を制限し、クロスバケット接続をマスキングすることにより、PHATは一貫性のない期間からの干渉を効果的に回避する。
実世界の14のデータセットのPHATを18のベースラインに対して評価し,既存の手法よりも有意に優れていることを示した。
論文 参考訳(メタデータ) (2026-01-31T10:58:09Z) - TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文 参考訳(メタデータ) (2026-01-30T17:28:56Z) - Not in Sync: Unveiling Temporal Bias in Audio Chat Models [59.146710538620816]
大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
論文 参考訳(メタデータ) (2025-10-14T06:29:40Z) - Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。
また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文 参考訳(メタデータ) (2025-07-20T18:02:50Z) - Breaking Silos: Adaptive Model Fusion Unlocks Better Time Series Forecasting [64.45587649141842]
時系列予測は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
1つのモデルは、異なるテストサンプルで一貫して他よりも優れていますが、(ii) それぞれのモデルは特定のケースで優れています。
異種モデルのサンプルレベル適応融合による時系列予測のためのフレームワークであるTimeFuseを紹介する。
論文 参考訳(メタデータ) (2025-05-24T00:45:07Z) - General Time-series Model for Universal Knowledge Representation of Multivariate Time-Series data [61.163542597764796]
周波数領域で異なる時間粒度(または対応する周波数分解能)の時系列が異なる結合分布を示すことを示す。
時間領域と周波数領域の両方からタイムアウェア表現を学習するために,新しいFourierナレッジアテンション機構を提案する。
自己回帰的空白埋め込み事前学習フレームワークを時系列解析に初めて組み込み、生成タスクに依存しない事前学習戦略を実現する。
論文 参考訳(メタデータ) (2025-02-05T15:20:04Z) - Are Large Language Models Useful for Time Series Data Analysis? [3.44393516559102]
時系列データは、医療、エネルギー、金融といった様々な分野において重要な役割を果たす。
本研究では,大規模言語モデル(LLM)が時系列データ解析に有効かどうかを検討する。
論文 参考訳(メタデータ) (2024-12-16T02:47:44Z) - Unveiling Divergent Inductive Biases of LLMs on Temporal Data [4.561800294155325]
本研究は、時間データ解析におけるGPT-3.5およびGPT-4モデルの性能評価に焦点をあてる。
特定の時間的関係に対する偏見が明らかになり、GPT-3.5は暗黙的イベントと明示的イベントの両方のQAフォーマットで「AFTER」を優先する一方、GPT-4は「BEFORE」に傾いている。
論文 参考訳(メタデータ) (2024-04-01T19:56:41Z) - TimeDRL: Disentangled Representation Learning for Multivariate Time-Series [10.99576829280084]
TimeDRLは、アンタングル化されたデュアルレベル埋め込みを備えた一般的な時系列表現学習フレームワークである。
TimeDRLは、既存の表現学習アプローチを一貫して上回り、MSEでは58.02%、精度では1.48%の平均的な改善を実現している。
論文 参考訳(メタデータ) (2023-12-07T08:56:44Z) - Compatible Transformer for Irregularly Sampled Multivariate Time Series [75.79309862085303]
本研究では,各サンプルに対して総合的な時間的相互作用特徴学習を実現するためのトランスフォーマーベースのエンコーダを提案する。
実世界の3つのデータセットについて広範な実験を行い、提案したCoFormerが既存の手法を大幅に上回っていることを検証した。
論文 参考訳(メタデータ) (2023-10-17T06:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。