論文の概要: AI-Augmented Predictions: LLM Assistants Improve Human Forecasting
Accuracy
- arxiv url: http://arxiv.org/abs/2402.07862v1
- Date: Mon, 12 Feb 2024 18:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:07:15.971991
- Title: AI-Augmented Predictions: LLM Assistants Improve Human Forecasting
Accuracy
- Title(参考訳): AIによる予測:人間の予測精度を改善するLLMアシスタント
- Authors: Philipp Schoenegger, Peter S. Park, Ezra Karger, Philip E. Tetlock
- Abstract要約: 大規模言語モデル(LLM)は、多くのドメインにおいて、優れた能力、マッチング、時には人間のパフォーマンスを上回ります。
本研究では,LLMによる予測作業における判断の強化の可能性について検討する。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) show impressive capabilities, matching and
sometimes exceeding human performance in many domains. This study explores the
potential of LLMs to augment judgement in forecasting tasks. We evaluated the
impact on forecasting accuracy of two GPT-4-Turbo assistants: one designed to
provide high-quality advice ('superforecasting'), and the other designed to be
overconfident and base-rate-neglecting. Participants (N = 991) had the option
to consult their assigned LLM assistant throughout the study, in contrast to a
control group that used a less advanced model (DaVinci-003) without direct
forecasting support. Our preregistered analyses reveal that LLM augmentation
significantly enhances forecasting accuracy by 23% across both types of
assistants, compared to the control group. This improvement occurs despite the
superforecasting assistant's higher accuracy in predictions, indicating the
augmentation's benefit is not solely due to model prediction accuracy.
Exploratory analyses showed a pronounced effect in one forecasting item,
without which we find that the superforecasting assistant increased accuracy by
43%, compared with 28% for the biased assistant. We further examine whether LLM
augmentation disproportionately benefits less skilled forecasters, degrades the
wisdom-of-the-crowd by reducing prediction diversity, or varies in
effectiveness with question difficulty. Our findings do not consistently
support these hypotheses. Our results suggest that access to an LLM assistant,
even a biased one, can be a helpful decision aid in cognitively demanding tasks
where the answer is not known at the time of interaction.
- Abstract(参考訳): 大規模言語モデル(llm)は印象的な能力を示し、多くの領域で人間のパフォーマンスを上回っています。
本研究は,予測作業における判断性を高めるためのllmの可能性を検討する。
2つのGPT-4-Turboアシスタントの予測精度への影響について検討した。
参加者 (N = 991) は, 直接予測支援を伴わずに, より進んだモデル (DaVinci-003) を用いた制御群とは対照的に, 与えられたLLMアシスタントを参照する選択肢を持っていた。
予備登録分析の結果,LLMの増大は,制御群と比較して,両タイプのアシスタントで予測精度を23%向上させることがわかった。
この改善は、スーパーフォアキャスティングアシスタントの予測精度が高いにもかかわらず行われ、拡張の利点はモデル予測精度だけによるものではないことを示している。
調査の結果,1項目の予測項目で顕著な効果を示したが,28%の偏りがみられたのに対し,超予測アシスタントの精度は43%向上した。
さらに,LLM増補は,熟練度が低い予測者に対して不均衡に恩恵を与えるか,予測の多様性を減らし,知恵を低下させるか,質問の難易度で効果が変化するかを検討する。
我々の発見はこれらの仮説を一貫して支持していない。
以上の結果から,llmアシスタントへのアクセスは,バイアスのあるものであっても,対話時に答えが不明な認知的要求課題において有効な意思決定支援となる可能性が示唆された。
関連論文リスト
- Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction [38.11497959553319]
本研究では,構造化患者訪問データを自然言語物語に変換するための大規模言語モデルの適用可能性について検討する。
様々なERH予測指向のプロンプト戦略を用いて,LLMのゼロショット性能と少数ショット性能を評価した。
提案手法を用いることで,従来のERHによる疾患予測の教師付き学習法と比較して,LLMの精度は極めて低いことが示唆された。
論文 参考訳(メタデータ) (2024-03-19T18:10:13Z) - Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy [1.999925939110439]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文 参考訳(メタデータ) (2024-02-29T17:27:59Z) - Humans vs Large Language Models: Judgmental Forecasting in an Era of Advanced AI [0.0]
本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。
本分析は, 統計モデル(ベースライン, 高度), 製品が促進されているか, 外的影響の性質など, 予測性能に及ぼす因子の影響に着目した。
論文 参考訳(メタデータ) (2023-12-12T02:28:12Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation
with GPT-4 in Cloud Incident Root Cause Analysis [17.362895895214344]
大規模言語モデル(LLM)は、人間がクラウドインシデントの根本原因を特定するのに役立つ。
そこで本研究では,オンコール技術者がモデル予測を採用するかどうかの判断を支援するために,予測に対する信頼度推定を行うことを提案する。
提案手法は,推定された根本原因に対する校正された信頼度を推定し,検索した履歴データの有用性と促進戦略を検証できることを示す。
論文 参考訳(メタデータ) (2023-09-11T21:24:00Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Towards Auditability for Fairness in Deep Learning [1.052782170493037]
グループフェアネスのメトリクスは、深層学習モデルが有利で不利なグループに対して異なる振る舞いをするのを検出することができる。
深層学習モデルの個人的公正度を効率よく計算したスムーズな予測感度を示す。
論文 参考訳(メタデータ) (2020-11-30T21:28:12Z) - When Does Uncertainty Matter?: Understanding the Impact of Predictive
Uncertainty in ML Assisted Decision Making [68.19284302320146]
我々は,異なるレベルの専門知識を持つ人々が,異なるタイプの予測不確実性にどう反応するかを評価するために,ユーザスタディを実施している。
その結果,後続の予測分布を示すことは,MLモデルの予測との相違点が小さくなることがわかった。
このことは、後続の予測分布は、人間の分布の種類や専門性を考慮し、注意を払って使用するべき有用な決定支援として役立つ可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-11-12T02:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。