Fugu-MT 論文翻訳(概要): Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy

論文の概要: Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy

arxiv url: http://arxiv.org/abs/2402.19379v4
Date: Mon, 6 May 2024 10:47:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 12:36:45.140397
Title: Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy
Title（参考訳）: シリコンバレーの群衆の知恵: LLM Ensemble Prediction Capability Rival Human Crowd Accuracy
Authors: Philipp Schoenegger, Indre Tuminauskaite, Peter S. Park, Philip E. Tetlock,
Abstract要約: 我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
参考スコア（独自算出の注目度）: 1.999925939110439
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human forecasting accuracy in practice relies on the 'wisdom of the crowd' effect, in which predictions about future events are significantly improved by aggregating across a crowd of individual forecasters. Past work on the forecasting ability of large language models (LLMs) suggests that frontier LLMs, as individual forecasters, underperform compared to the gold standard of a human crowd forecasting tournament aggregate. In Study 1, we expand this research by using an LLM ensemble approach consisting of a crowd of twelve LLMs. We compare the aggregated LLM predictions on 31 binary questions to that of a crowd of 925 human forecasters from a three-month forecasting tournament. Our preregistered main analysis shows that the LLM crowd outperforms a simple no-information benchmark and is not statistically different from the human crowd. In exploratory analyses, we find that these two approaches are equivalent with respect to medium-effect-size equivalence bounds. We also observe an acquiescence effect, with mean model predictions being significantly above 50%, despite an almost even split of positive and negative resolutions. Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2) can be improved by drawing on human cognitive output. We find that both models' forecasting accuracy benefits from exposure to the median human prediction as information, improving accuracy by between 17% and 28%: though this leads to less accurate predictions than simply averaging human and machine forecasts. Our results suggest that LLMs can achieve forecasting accuracy rivaling that of human crowd forecasting tournaments: via the simple, practically applicable method of forecast aggregation. This replicates the 'wisdom of the crowd' effect for LLMs, and opens up their use for a variety of applications throughout society.
Abstract（参考訳）: 実際の人間の予測精度は、「群衆の知恵」効果に依存しており、個々の予測者の群集に集結することで、将来の出来事に関する予測が著しく改善される。大規模言語モデル(LLM)の予測能力に関する過去の研究は、フロンティアのLLMは、個人予測家として、人間の群衆予測トーナメントアグリゲーションのゴールドスタンダードに比べて性能が劣っていることを示唆している。研究1では、12個のLLMの群集からなるLLMアンサンブルアプローチを用いて、この研究を拡大する。我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントの925人の予測者の群集と比較した。我々の事前登録された主要な分析は、LLMの群集が単純な非情報ベンチマークよりも優れており、統計的にヒトの群集と異なるものではないことを示している。探索的解析において、これらの2つのアプローチは中規模効果の同値境界に対して等価であることがわかった。また, 正解と負解がほぼ均等に分かれているにもかかわらず, 平均モデル予測が50%以上であるような収差効果も観測した。さらに,研究2では,人間の認知的アウトプットに基づいてLCM予測(GPT-4とClaude 2)を改善することができるかどうかを検証した。両モデルの予測精度は、中央値の人間の予測を情報として露出することで、精度を17%から28%向上させることで得られる。以上の結果から, LLMは, 簡易かつ実用的な予測集計手法により, 人体予測トーナメントに匹敵する予測精度を達成できることが示唆された。これはLLMの「群集の知恵」効果を再現し、社会全体で様々な用途に利用を開放する。

関連論文リスト

The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification [74.64864354503204]
本稿では,Large Language Models (LLM) を利用した予測自動監視システムであるThe Forecast Criticを提案する。 LLMの時系列予測品質を評価する能力を評価する。合成および実世界の予測データを含む3つの実験を行った。
論文参考訳（メタデータ） (2025-12-12T21:59:53Z)
LLM-as-a-Prophet: Understanding Predictive Intelligence with Prophet Arena [25.304644327116975]
大規模言語モデル(LLM)は、将来の事象を予測するために、インターネットスケールのデータに基づいて訓練されている。本稿では,LLMの予測知能について系統的に検討する。 LLM-as-a-Prophetによる優れた予測知能の実現に向けた重要なボトルネックを明らかにする。
論文参考訳（メタデータ） (2025-10-20T15:20:05Z)
Evaluating LLMs on Real-World Forecasting Against Expert Forecasters [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示したが、将来の事象を予測する能力はまだ検討されていない。メタキュラスから464個の質問を予測し,その性能を上位の予測者と比較した。
論文参考訳（メタデータ） (2025-07-06T22:26:59Z)
Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文参考訳（メタデータ） (2024-12-24T16:51:35Z)
Hybrid Forecasting of Geopolitical Events [71.73737011120103]
SAGEは、人間と機械が生成した予測を組み合わせたハイブリッド予測システムである。このシステムは、確率と評価されたスキルに基づいて、人間と機械の予測の重み付けを集約する。機械による予測にアクセスできる熟練した予測者は、過去のデータしか見ていない者よりも優れていた。
論文参考訳（メタデータ） (2024-12-14T22:09:45Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Bayesian Statistical Modeling with Predictors from LLMs [5.5711773076846365]
State of the Art Large Language Model (LLM)は、様々なベンチマークタスクで印象的なパフォーマンスを示している。このことは、LLMから派生した情報の人間的類似性に関する疑問を提起する。
論文参考訳（メタデータ） (2024-06-13T11:33:30Z)
Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。モデルはまだ、未来に関する正確な予測に苦戦している。
論文参考訳（メタデータ） (2024-06-06T19:01:42Z)
Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文参考訳（メタデータ） (2024-02-28T18:54:18Z)
AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy [3.7865171120254355]
大規模言語モデル(LLM)は、多くのドメインで人間のパフォーマンスを上回ることがある。本研究は, 予測課題における人的判断力を高めるLLMの可能性を探るものである。
論文参考訳（メタデータ） (2024-02-12T18:14:43Z)
ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文参考訳（メタデータ） (2024-02-02T10:34:13Z)
Humans vs Large Language Models: Judgmental Forecasting in an Era of Advanced AI [0.0]
本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。本分析は, 統計モデル(ベースライン, 高度), 製品が促進されているか, 外的影響の性質など, 予測性能に及ぼす因子の影響に着目した。
論文参考訳（メタデータ） (2023-12-12T02:28:12Z)
Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文参考訳（メタデータ） (2021-06-22T18:29:58Z)
Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文参考訳（メタデータ） (2021-02-10T15:23:20Z)
Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文参考訳（メタデータ） (2020-10-15T16:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。