論文の概要: Humans vs Large Language Models: Judgmental Forecasting in an Era of
Advanced AI
- arxiv url: http://arxiv.org/abs/2312.06941v1
- Date: Tue, 12 Dec 2023 02:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:51:47.369702
- Title: Humans vs Large Language Models: Judgmental Forecasting in an Era of
Advanced AI
- Title(参考訳): 人間対大規模言語モデル:AIの先進時代における判断予測
- Authors: MAhdi Abolghasemi, Odkhishig Ganbold, Kristian Rotaru
- Abstract要約: 本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。
本分析は, 統計モデル(ベースライン, 高度), 製品が促進されているか, 外的影響の性質など, 予測性能に及ぼす因子の影響に着目した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the forecasting accuracy of human experts versus
Large Language Models (LLMs) in the retail sector, particularly during standard
and promotional sales periods. Utilizing a controlled experimental setup with
123 human forecasters and five LLMs, including ChatGPT4, ChatGPT3.5, Bard,
Bing, and Llama2, we evaluated forecasting precision through Mean Absolute
Percentage Error. Our analysis centered on the effect of the following factors
on forecasters performance: the supporting statistical model (baseline and
advanced), whether the product was on promotion, and the nature of external
impact. The findings indicate that LLMs do not consistently outperform humans
in forecasting accuracy and that advanced statistical forecasting models do not
uniformly enhance the performance of either human forecasters or LLMs. Both
human and LLM forecasters exhibited increased forecasting errors, particularly
during promotional periods and under the influence of positive external
impacts. Our findings call for careful consideration when integrating LLMs into
practical forecasting processes.
- Abstract(参考訳): 本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。
123人の予測装置とChatGPT4, ChatGPT3.5, Bard, Bing, Llama2を含む5つのLCMを用いて, 平均絶対誤差による予測精度の評価を行った。
分析は, 支援統計モデル(ベースラインとアドバンスト), 製品がプロモーションにかかわるか否か, 外的影響の性質など, 予測者性能に及ぼす因子の影響について検討した。
以上の結果から,LSMは予測精度において常に人間より優れておらず,高度な統計予測モデルでは予測器やLSMの性能が一様に向上しないことがわかった。
人間とLLMの予測者は、特にプロモーション期間と、ポジティブな外部影響の影響下で予測誤差が増大した。
本研究は, LLMを実用的な予測プロセスに統合する際の注意深い考察を提唱する。
関連論文リスト
- Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Bayesian Statistical Modeling with Predictors from LLMs [5.5711773076846365]
State of the Art Large Language Model (LLM)は、様々なベンチマークタスクで印象的なパフォーマンスを示している。
このことは、LLMから派生した情報の人間的類似性に関する疑問を提起する。
論文 参考訳(メタデータ) (2024-06-13T11:33:30Z) - Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z) - Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy [1.999925939110439]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文 参考訳(メタデータ) (2024-02-29T17:27:59Z) - AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy [3.7865171120254355]
大規模言語モデル(LLM)は、多くのドメインで人間のパフォーマンスを上回ることがある。
本研究は, 予測課題における人的判断力を高めるLLMの可能性を探るものである。
論文 参考訳(メタデータ) (2024-02-12T18:14:43Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis [17.362895895214344]
大規模言語モデル(LLM)は、人間がクラウドインシデントの根本原因を特定するのに役立つ。
そこで本研究では,オンコール技術者がモデル予測を採用するかどうかの判断を支援するために,予測に対する信頼度推定を行うことを提案する。
提案手法は,推定された根本原因に対する校正された信頼度を推定し,検索した履歴データの有用性と促進戦略を検証できることを示す。
論文 参考訳(メタデータ) (2023-09-11T21:24:00Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Improving Event Duration Prediction via Time-aware Pre-training [90.74988936678723]
持続時間予測に有効な2つのモデルを提案する。
1つのモデルは、期間値が該当する範囲/単位を予測し(R−pred)、もう1つのモデルは正確な期間値E−predを予測する。
我々の最良のモデル -- E-pred は、以前の作業よりも大幅に優れ、R-pred よりも正確に持続時間情報をキャプチャします。
論文 参考訳(メタデータ) (2020-11-05T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。