論文の概要: AI Predicts AGI: Leveraging AGI Forecasting and Peer Review to Explore LLMs' Complex Reasoning Capabilities
- arxiv url: http://arxiv.org/abs/2412.09385v2
- Date: Tue, 22 Apr 2025 13:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 19:51:40.170587
- Title: AI Predicts AGI: Leveraging AGI Forecasting and Peer Review to Explore LLMs' Complex Reasoning Capabilities
- Title(参考訳): AIによるAGI予測 - AGI予測とピアレビューを活用してLLMの複雑な推論能力を探る
- Authors: Fabrizio Davide, Pietro Torre, Leonardo Ercolani, Andrea Gaggioli,
- Abstract要約: 2030年までに出現するAI(Artificial General Intelligence, AGI)の可能性を推定し, 最先端の大規模言語モデル16を課題とした。
これらの予測の質を評価するために,自動ピアレビュープロセス(LLM-PR)を実装した。
- 参考スコア(独自算出の注目度): 0.3428444467046466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We tasked 16 state-of-the-art large language models (LLMs) with estimating the likelihood of Artificial General Intelligence (AGI) emerging by 2030. To assess the quality of these forecasts, we implemented an automated peer review process (LLM-PR). The LLMs' estimates varied widely, ranging from 3% (Reka- Core) to 47.6% (GPT-4o), with a median of 12.5%. These estimates closely align with a recent expert survey that projected a 10% likelihood of AGI by 2027, underscoring the relevance of LLMs in forecasting complex, speculative scenarios. The LLM-PR process demonstrated strong reliability, evidenced by a high Intraclass Correlation Coefficient (ICC = 0.79), reflecting notable consistency in scoring across the models. Among the models, Pplx-70b-online emerged as the top performer, while Gemini-1.5-pro-api ranked the lowest. A cross-comparison with external benchmarks, such as LMSYS Chatbot Arena, revealed that LLM rankings remained consistent across different evaluation methods, suggesting that existing benchmarks may not encapsulate some of the skills relevant for AGI prediction. We further explored the use of weighting schemes based on external benchmarks, optimizing the alignment of LLMs' predictions with human expert forecasts. This analysis led to the development of a new, 'AGI benchmark' designed to highlight performance differences in AGI-related tasks. Our findings offer insights into LLMs' capabilities in speculative, interdisciplinary forecasting tasks and emphasize the growing need for innovative evaluation frameworks for assessing AI performance in complex, uncertain real-world scenarios.
- Abstract(参考訳): 我々は、2030年までに出現する人工知能(AGI)の可能性を推定する16の最先端の大規模言語モデル(LLM)を課題とした。
これらの予測の質を評価するために,自動ピアレビュープロセス(LLM-PR)を実装した。
LLMの推計は3% (Reka-Core) から47.6% (GPT-4o) まで幅広く、中央値は12.5%である。
これらの推定は、2027年までにAGIの10%の確率を予測した最近の専門家調査と密接に一致しており、複雑な投機シナリオの予測におけるLLMの妥当性を裏付けている。
LLM-PRプロセスは、高いクラス内相関係数(ICC = 0.79)によって証明された信頼性を示し、モデルのスコアリングにおける顕著な一貫性を反映した。
モデルの中では、Pplx-70b-onlineがトップパフォーマーとして登場し、Gemini-1.5-pro-apiが最下位となった。
LMSYS Chatbot Arenaのような外部ベンチマークとの相互比較により、LCMランキングは異なる評価手法間で一貫性が保たれており、既存のベンチマークはAGI予測に関連するいくつかのスキルをカプセル化していないことが示唆された。
さらに、外部ベンチマークに基づく重み付けスキームの使用について検討し、LLMの予測と人間の専門家予測とのアライメントを最適化した。
この分析により、AGI関連タスクのパフォーマンスの違いを強調するために設計された新しい「AGIベンチマーク」の開発につながった。
我々の発見は、投機的で学際的な予測タスクにおけるLLMの能力に関する洞察を提供し、複雑で不確実な現実のシナリオにおけるAIパフォーマンスを評価するための革新的な評価フレームワークの必要性の増大を強調する。
関連論文リスト
- LLM-based Automated Grading with Human-in-the-Loop [32.14015215819979]
大規模言語モデル (LLM) は、自動短応答グレーディング (ASAG) にますます使われている。
本研究では,Human-in-the-loop (HITL) アプローチを用いて,ASAGタスクにおけるLLMの可能性を探究する。
提案するフレームワークである GradeHITL は LLM の生成特性を利用して人間の専門家に質問を投げかける。
論文 参考訳(メタデータ) (2025-04-07T16:23:07Z) - BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models [0.0]
我々は、大規模言語モデル(LLM)におけるバイアス、倫理、公平性、現実性を評価するための新しいフレームワークBEATSを紹介する。
LLMのバイアスベンチマークを行い、29の異なるメトリクスのパフォーマンスを計測する。
これらの指標は、人口統計学、認知学、社会的偏見、倫理的推論、グループフェアネス、事実に関する誤情報リスクなど、幅広い特徴に及びます。
論文 参考訳(メタデータ) (2025-03-31T16:56:52Z) - Forecasting Frontier Language Model Agent Capabilities [0.7499722271664147]
言語モデル(LM)の下流能力を予測する6つの予測手法を評価する。
計算やモデルリリース日などの入力メトリクスからベンチマークスコアを直接予測する"ワンステップ"アプローチや、クロスベンチマークパフォーマンス(PC-1)や人間による競争力のあるElo評価といった中間メトリックを最初に予測する"ツーステップ"アプローチを採用しています。
当社の予測では,2026年初めまでに,能力の低い非特殊化LMエージェントがSWE-Bench Verifiedで54%,最先端LMエージェントが87%の成功率に達すると予測されている。
論文 参考訳(メタデータ) (2025-02-21T02:34:17Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - ELF-Gym: Evaluating Large Language Models Generated Features for Tabular Prediction [33.03433653251314]
大規模言語モデル(LLM)を評価するためのフレームワークであるELF-Gymを提案する。
私たちは、トップパフォーマンスチームによって使用される251の"ゴールド"機能を含む、歴史的なKaggleコンペティションから、新たなデータセットをキュレートしました。
ベストケースのシナリオでは、LLMがゴールデン機能の約56%を意味的にキャプチャできるが、より要求の高い実装レベルでは、オーバーラップは13%に減少する。
論文 参考訳(メタデータ) (2024-10-13T13:59:33Z) - Efficacy of Large Language Models in Systematic Reviews [0.0]
本研究では,既存文献の解釈におけるLarge Language Models(LLMs)の有効性について検討した。
私たちは2020年3月から2024年5月までに88の関連論文のデータベースを作成・手書きで作成しました。
そこで我々は,Meta AIのLlama 38BとOpenAIのGPT-4oの2つの現状のLLMを,その解釈精度に基づいて評価した。
論文 参考訳(メタデータ) (2024-08-03T00:01:13Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy [1.999925939110439]
我々は12大言語モデル(LLM)の群集からなるアンサンブルアプローチを使用する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントにおける人的予測者の群集の予測と比較した。
両モデルの予測精度は、中央値の人間の予測を情報として暴露することで得られる。
論文 参考訳(メタデータ) (2024-02-29T17:27:59Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。