論文の概要: The Wisdom of Deliberating AI Crowds: Does Deliberation Improve LLM-Based Forecasting?
- arxiv url: http://arxiv.org/abs/2512.22625v1
- Date: Sat, 27 Dec 2025 15:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.143456
- Title: The Wisdom of Deliberating AI Crowds: Does Deliberation Improve LLM-Based Forecasting?
- Title(参考訳): AIの群衆を熟考する知恵: 熟考はLLMベースの予測を改善するか?
- Authors: Paul Schneider, Amalie Schramm,
- Abstract要約: 本研究は,LLMが相互に予測をレビューできるようになれば,大規模言語モデルの精度が向上するかどうかを考察する。
Metaculus Q2 2025 AI Forecasting Tournamentから202の解決されたバイナリ質問を使用して、精度を4つのシナリオで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Structured deliberation has been found to improve the performance of human forecasters. This study investigates whether a similar intervention, i.e. allowing LLMs to review each other's forecasts before updating, can improve accuracy in large language models (GPT-5, Claude Sonnet 4.5, Gemini Pro 2.5). Using 202 resolved binary questions from the Metaculus Q2 2025 AI Forecasting Tournament, accuracy was assessed across four scenarios: (1) diverse models with distributed information, (2) diverse models with shared information, (3) homogeneous models with distributed information, and (4) homogeneous models with shared information. Results show that the intervention significantly improves accuracy in scenario (2), reducing Log Loss by 0.020 or about 4 percent in relative terms (p = 0.017). However, when homogeneous groups (three instances of the same model) engaged in the same process, no benefit was observed. Unexpectedly, providing LLMs with additional contextual information did not improve forecast accuracy, limiting our ability to study information pooling as a mechanism. Our findings suggest that deliberation may be a viable strategy for improving LLM forecasting.
- Abstract(参考訳): 構造的考察は,ヒトの予測器の性能向上に寄与している。
本研究は,LLMが互いの予測を更新する前にレビューできるようにすることによって,大規模言語モデル(GPT-5, Claude Sonnet 4.5, Gemini Pro 2.5)の精度が向上するかどうかを検討する。
メタキュラス Q2 2025 AI Forecasting Tournament の解答二分問題を用いて,(1)分散情報を持つ多様なモデル,(2)共有情報を持つ多様なモデル,(3)分散情報を持つ同質モデル,(4)共有情報を持つ同質モデル,の4つのシナリオで精度を評価した。
その結果, 介入はシナリオ(2)の精度を著しく向上させ, ログ損失を0.020以上削減し, 相対的な用語で約4%削減する(p = 0.017)。
しかし、同種群(同じモデルの3つの例)が同じ過程に関わった場合、利益は得られなかった。
予期せぬことに、LLMに追加の文脈情報を提供することで予測精度が向上せず、情報プールをメカニズムとして研究する能力が制限された。
以上の結果から,検討はLCM予測を改善するための有効な戦略である可能性が示唆された。
関連論文リスト
- The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification [74.64864354503204]
本稿では,Large Language Models (LLM) を利用した予測自動監視システムであるThe Forecast Criticを提案する。
LLMの時系列予測品質を評価する能力を評価する。
合成および実世界の予測データを含む3つの実験を行った。
論文 参考訳(メタデータ) (2025-12-12T21:59:53Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Large Language Models are Zero-Shot Next Location Predictors [4.315451628809687]
大規模言語モデル(LLM)は、優れた一般化と推論能力を示している。
LLMは最大36.2%の精度を得ることができ、人間の移動性に特化して設計された他のモデルに比べて640%近く改善されている。
論文 参考訳(メタデータ) (2024-05-31T16:07:33Z) - Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy [1.999925939110439]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文 参考訳(メタデータ) (2024-02-29T17:27:59Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。