論文の概要: Humans vs Large Language Models: Judgmental Forecasting in an Era of
Advanced AI
- arxiv url: http://arxiv.org/abs/2312.06941v1
- Date: Tue, 12 Dec 2023 02:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:51:47.369702
- Title: Humans vs Large Language Models: Judgmental Forecasting in an Era of
Advanced AI
- Title(参考訳): 人間対大規模言語モデル:AIの先進時代における判断予測
- Authors: MAhdi Abolghasemi, Odkhishig Ganbold, Kristian Rotaru
- Abstract要約: 本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。
本分析は, 統計モデル(ベースライン, 高度), 製品が促進されているか, 外的影響の性質など, 予測性能に及ぼす因子の影響に着目した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the forecasting accuracy of human experts versus
Large Language Models (LLMs) in the retail sector, particularly during standard
and promotional sales periods. Utilizing a controlled experimental setup with
123 human forecasters and five LLMs, including ChatGPT4, ChatGPT3.5, Bard,
Bing, and Llama2, we evaluated forecasting precision through Mean Absolute
Percentage Error. Our analysis centered on the effect of the following factors
on forecasters performance: the supporting statistical model (baseline and
advanced), whether the product was on promotion, and the nature of external
impact. The findings indicate that LLMs do not consistently outperform humans
in forecasting accuracy and that advanced statistical forecasting models do not
uniformly enhance the performance of either human forecasters or LLMs. Both
human and LLM forecasters exhibited increased forecasting errors, particularly
during promotional periods and under the influence of positive external
impacts. Our findings call for careful consideration when integrating LLMs into
practical forecasting processes.
- Abstract(参考訳): 本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。
123人の予測装置とChatGPT4, ChatGPT3.5, Bard, Bing, Llama2を含む5つのLCMを用いて, 平均絶対誤差による予測精度の評価を行った。
分析は, 支援統計モデル(ベースラインとアドバンスト), 製品がプロモーションにかかわるか否か, 外的影響の性質など, 予測者性能に及ぼす因子の影響について検討した。
以上の結果から,LSMは予測精度において常に人間より優れておらず,高度な統計予測モデルでは予測器やLSMの性能が一様に向上しないことがわかった。
人間とLLMの予測者は、特にプロモーション期間と、ポジティブな外部影響の影響下で予測誤差が増大した。
本研究は, LLMを実用的な予測プロセスに統合する際の注意深い考察を提唱する。
関連論文リスト
- Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [62.954890888281206]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy [1.999925939110439]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文 参考訳(メタデータ) (2024-02-29T17:27:59Z) - AI-Augmented Predictions: LLM Assistants Improve Human Forecasting
Accuracy [2.184775414778289]
大規模言語モデル(LLM)は、多くのドメインにおいて、優れた能力、マッチング、時には人間のパフォーマンスを上回ります。
本研究では,LLMによる予測作業における判断の強化の可能性について検討する。
論文 参考訳(メタデータ) (2024-02-12T18:14:43Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,ExEnsembleという名称のトレーニングフリーな極値拡張戦略を導入し,画素値のばらつきを増大させ,予測ロバスト性を向上させる。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis [17.362895895214344]
大規模言語モデル(LLM)は、人間がクラウドインシデントの根本原因を特定するのに役立つ。
そこで本研究では,オンコール技術者がモデル予測を採用するかどうかの判断を支援するために,予測に対する信頼度推定を行うことを提案する。
提案手法は,推定された根本原因に対する校正された信頼度を推定し,検索した履歴データの有用性と促進戦略を検証できることを示す。
論文 参考訳(メタデータ) (2023-09-11T21:24:00Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - LoMEF: A Framework to Produce Local Explanations for Global Model Time
Series Forecasts [2.3096751699592137]
複数の時系列にまたがってトレーニングされたグローバル予測モデル(GFM)は、多くの予測競合や実世界のアプリケーションにおいて優れた結果を示している。
しかしながら、GFMは通常、特に特定の時系列に対する解釈可能性に欠ける。
本稿では,GFMからの予測を説明するために,局所モデルに依存しない新しい解法を提案する。
論文 参考訳(メタデータ) (2021-11-13T00:17:52Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Improving Event Duration Prediction via Time-aware Pre-training [90.74988936678723]
持続時間予測に有効な2つのモデルを提案する。
1つのモデルは、期間値が該当する範囲/単位を予測し(R−pred)、もう1つのモデルは正確な期間値E−predを予測する。
我々の最良のモデル -- E-pred は、以前の作業よりも大幅に優れ、R-pred よりも正確に持続時間情報をキャプチャします。
論文 参考訳(メタデータ) (2020-11-05T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。