Fugu-MT 論文翻訳(概要): AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy

論文の概要: AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy

arxiv url: http://arxiv.org/abs/2402.07862v2
Date: Thu, 22 Aug 2024 13:57:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 19:35:21.541771
Title: AI-Augmented Predictions: LLM Assistants Improve Human Forecasting Accuracy
Title（参考訳）: AIによる予測:人間の予測精度を改善するLLMアシスタント
Authors: Philipp Schoenegger, Peter S. Park, Ezra Karger, Sean Trott, Philip E. Tetlock,
Abstract要約: 大規模言語モデル(LLM)は、多くのドメインで人間のパフォーマンスを上回ることがある。本研究は, 予測課題における人的判断力を高めるLLMの可能性を探るものである。
参考スコア（独自算出の注目度）: 3.7865171120254355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) match and sometimes exceeding human performance in many domains. This study explores the potential of LLMs to augment human judgement in a forecasting task. We evaluate the effect on human forecasters of two LLM assistants: one designed to provide high-quality ("superforecasting") advice, and the other designed to be overconfident and base-rate neglecting, thus providing noisy forecasting advice. We compare participants using these assistants to a control group that received a less advanced model that did not provide numerical predictions or engaged in explicit discussion of predictions. Participants (N = 991) answered a set of six forecasting questions and had the option to consult their assigned LLM assistant throughout. Our preregistered analyses show that interacting with each of our frontier LLM assistants significantly enhances prediction accuracy by between 24 percent and 28 percent compared to the control group. Exploratory analyses showed a pronounced outlier effect in one forecasting item, without which we find that the superforecasting assistant increased accuracy by 41 percent, compared with 29 percent for the noisy assistant. We further examine whether LLM forecasting augmentation disproportionately benefits less skilled forecasters, degrades the wisdom-of-the-crowd by reducing prediction diversity, or varies in effectiveness with question difficulty. Our data do not consistently support these hypotheses. Our results suggest that access to a frontier LLM assistant, even a noisy one, can be a helpful decision aid in cognitively demanding tasks compared to a less powerful model that does not provide specific forecasting advice. However, the effects of outliers suggest that further research into the robustness of this pattern is needed.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多くのドメインで人間のパフォーマンスを上回ることがある。本研究は, 予測課題における人的判断力を高めるLLMの可能性を探るものである。我々は,LLMアシスタントの人間予測者に対する効果を評価する。一方は高品質な(超予測)アドバイスを提供することを意図し,他方は過信とベースレートの無視を念頭に設計し,ノイズの多い予測アドバイスを提供することである。我々は,これらのアシスタントを用いた参加者を,数値予測を提供しなかったり,予測の明示的な議論を行なわなかった,より先進的なモデルを受けたコントロールグループと比較した。参加者 (N = 991) は6つの予測質問に回答し、割り当てられたLLMアシスタントを全会一致で相談する選択肢を得た。予備登録分析の結果,各フロンティアLLMアシスタントとの相互作用は,制御群と比較して24%から28%の精度で予測精度を著しく向上させることがわかった。探索分析の結果,1つの予測項目で顕著なアウトリー効果を示し,29%のノイズに対して,超予測アシスタントの精度が41%向上したことがわかった。さらに,LLM予測が非熟練の予測者に対して不均衡に恩恵を与えるか,予測の多様性を減らし,知恵を低下させるか,質問の難易度で効果が変化するか,についても検討する。我々のデータはこれらの仮説を一貫して支持していない。以上の結果から,フロンティアのLLMアシスタントへのアクセスは,特定の予測アドバイスを提供しないより強力なモデルに比べて,認知的なタスク要求に有効な判断支援となる可能性が示唆された。しかし, 外れ値の影響は, このパターンの堅牢性に関するさらなる研究が必要であることを示唆している。

関連論文リスト

Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文参考訳（メタデータ） (2024-12-24T16:51:35Z)
Hybrid Forecasting of Geopolitical Events [71.73737011120103]
SAGEは、人間と機械が生成した予測を組み合わせたハイブリッド予測システムである。このシステムは、確率と評価されたスキルに基づいて、人間と機械の予測の重み付けを集約する。機械による予測にアクセスできる熟練した予測者は、過去のデータしか見ていない者よりも優れていた。
論文参考訳（メタデータ） (2024-12-14T22:09:45Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction [38.11497959553319]
本研究では,構造化患者訪問データを自然言語物語に変換するための大規模言語モデルの適用可能性について検討する。様々なERH予測指向のプロンプト戦略を用いて,LLMのゼロショット性能と少数ショット性能を評価した。提案手法を用いることで,従来のERHによる疾患予測の教師付き学習法と比較して,LLMの精度は極めて低いことが示唆された。
論文参考訳（メタデータ） (2024-03-19T18:10:13Z)
Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy [1.999925939110439]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文参考訳（メタデータ） (2024-02-29T17:27:59Z)
Humans vs Large Language Models: Judgmental Forecasting in an Era of Advanced AI [0.0]
本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。本分析は, 統計モデル(ベースライン, 高度), 製品が促進されているか, 外的影響の性質など, 予測性能に及ぼす因子の影響に着目した。
論文参考訳（メタデータ） (2023-12-12T02:28:12Z)
Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-18T03:34:59Z)
PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis [17.362895895214344]
大規模言語モデル(LLM)は、人間がクラウドインシデントの根本原因を特定するのに役立つ。そこで本研究では,オンコール技術者がモデル予測を採用するかどうかの判断を支援するために,予測に対する信頼度推定を行うことを提案する。提案手法は,推定された根本原因に対する校正された信頼度を推定し,検索した履歴データの有用性と促進戦略を検証できることを示す。
論文参考訳（メタデータ） (2023-09-11T21:24:00Z)
Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。 EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-04-17T10:59:57Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文参考訳（メタデータ） (2021-02-10T15:23:20Z)
Towards Auditability for Fairness in Deep Learning [1.052782170493037]
グループフェアネスのメトリクスは、深層学習モデルが有利で不利なグループに対して異なる振る舞いをするのを検出することができる。深層学習モデルの個人的公正度を効率よく計算したスムーズな予測感度を示す。
論文参考訳（メタデータ） (2020-11-30T21:28:12Z)
When Does Uncertainty Matter?: Understanding the Impact of Predictive Uncertainty in ML Assisted Decision Making [68.19284302320146]
我々は,異なるレベルの専門知識を持つ人々が,異なるタイプの予測不確実性にどう反応するかを評価するために,ユーザスタディを実施している。その結果,後続の予測分布を示すことは,MLモデルの予測との相違点が小さくなることがわかった。このことは、後続の予測分布は、人間の分布の種類や専門性を考慮し、注意を払って使用するべき有用な決定支援として役立つ可能性があることを示唆している。
論文参考訳（メタデータ） (2020-11-12T02:23:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。