論文の概要: Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival
Human Crowd Accuracy
- arxiv url: http://arxiv.org/abs/2402.19379v2
- Date: Wed, 6 Mar 2024 18:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 11:58:44.356559
- Title: Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival
Human Crowd Accuracy
- Title(参考訳): シリコンバレーの群衆の知恵: LLM Ensemble Prediction Capability Rival Human Crowd Accuracy
- Authors: Philipp Schoenegger, Indre Tuminauskaite, Peter S. Park, Philip E.
Tetlock
- Abstract要約: 我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human forecasting accuracy in practice relies on the 'wisdom of the crowd'
effect, in which predictions about future events are significantly improved by
aggregating across a crowd of individual forecasters. Past work on the
forecasting ability of large language models (LLMs) suggests that frontier
LLMs, as individual forecasters, underperform compared to the gold standard of
a human crowd forecasting tournament aggregate. In Study 1, we expand this
research by using an LLM ensemble approach consisting of a crowd of twelve
LLMs. We compare the aggregated LLM predictions on 31 binary questions to that
of a crowd of 925 human forecasters from a three-month forecasting tournament.
Our preregistered main analysis shows that the LLM crowd outperforms a simple
no-information benchmark and is not statistically different from the human
crowd. In exploratory analyses, we find that these two approaches are
equivalent with respect to medium-effect-size equivalence bounds. We also
observe an acquiescence effect, with mean model predictions being significantly
above 50%, despite an almost even split of positive and negative resolutions.
Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2)
can be improved by drawing on human cognitive output. We find that both models'
forecasting accuracy benefits from exposure to the median human prediction as
information, improving accuracy by between 17% and 28%: though this leads to
less accurate predictions than simply averaging human and machine forecasts.
Our results suggest that LLMs can achieve forecasting accuracy rivaling that of
human crowd forecasting tournaments: via the simple, practically applicable
method of forecast aggregation. This replicates the 'wisdom of the crowd'
effect for LLMs, and opens up their use for a variety of applications
throughout society.
- Abstract(参考訳): 実際に人間の予測精度は、個々の予測者の群集を集約することで将来の出来事についての予測を大幅に改善する「群衆のウィズド」効果に依存している。
大規模言語モデル(LLM)の予測能力に関する過去の研究は、フロンティアのLLMは、個人予測家として、人間の群衆予測トーナメントアグリゲーションのゴールドスタンダードに比べて性能が劣っていることを示唆している。
研究1では、12個のLLMの群集からなるLLMアンサンブルアプローチを用いて、この研究を拡大する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントの925人の予測者の群集と比較した。
我々の事前登録された主要な分析は、LLMの群集が単純な非情報ベンチマークよりも優れており、統計的にヒトの群集と異なるものではないことを示している。
探索分析において、これらの2つのアプローチは中規模効果の同値境界に対して等価であることがわかった。
また, 正解と負解がほぼ均等に分かれているにもかかわらず, 平均モデル予測が50%以上であるような収差効果も観測した。
さらに,研究2では,人間の認知的アウトプットに基づいてLCM予測(GPT-4とClaude 2)を改善することができるかどうかを検証した。
モデルによる予測精度は、情報として人間予測の中央値に曝露することによる利点があり、17%から28%の精度向上が期待できる。
以上の結果から, LLMは, 簡易かつ実用的な予測集計手法により, 人体予測トーナメントに匹敵する予測精度を達成できることが示唆された。
これは、llmの'wisdom of the crowd'効果を再現し、社会全体で様々なアプリケーションへの使用を開放する。
関連論文リスト
- Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。
本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文 参考訳(メタデータ) (2024-02-28T18:54:18Z) - AI-Augmented Predictions: LLM Assistants Improve Human Forecasting
Accuracy [2.184775414778289]
大規模言語モデル(LLM)は、多くのドメインにおいて、優れた能力、マッチング、時には人間のパフォーマンスを上回ります。
本研究では,LLMによる予測作業における判断の強化の可能性について検討する。
論文 参考訳(メタデータ) (2024-02-12T18:14:43Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,ExEnsembleという名称のトレーニングフリーな極値拡張戦略を導入し,画素値のばらつきを増大させ,予測ロバスト性を向上させる。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - Humans vs Large Language Models: Judgmental Forecasting in an Era of
Advanced AI [0.0]
本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。
本分析は, 統計モデル(ベースライン, 高度), 製品が促進されているか, 外的影響の性質など, 予測性能に及ぼす因子の影響に着目した。
論文 参考訳(メタデータ) (2023-12-12T02:28:12Z) - Beyond S-curves: Recurrent Neural Networks for Technology Forecasting [60.82125150951035]
我々は機械学習と時系列予測の最近の進歩を生かしたオートコーダアプローチを開発した。
S曲線予測は、単純なARIMAベースラインに匹敵する平均パーセンテージ誤差(MAPE)を示す。
我々のオートエンコーダアプローチは、2番目に高い結果に対して平均13.5%改善する。
論文 参考訳(メタデータ) (2022-11-28T14:16:22Z) - Metrizing Fairness [7.820667552233989]
本研究では,2つのグループのうちの1つに属する個人の特性を予測するための教師付き学習問題について検討した。
本稿では,積分確率測度を用いて不公平さを測る概念的および計算的利点を示す。
統計的パリティが予測精度を向上させる条件を同定する。
論文 参考訳(メタデータ) (2022-05-30T12:28:10Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Machine learning for total cloud cover prediction [0.0]
本稿では,多層パーセプトロン(MLP)ニューラルネットワーク,勾配促進機(GBM)およびランダムフォレスト(RF)法を用いた後処理の性能について検討する。
生のアンサンブルと比較して、全ての校正法は予測スキルを著しく向上させる。
RFモデルは予測性能が最小となる一方、POLRとGBMのアプローチは最良である。
論文 参考訳(メタデータ) (2020-01-16T17:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。