論文の概要: CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency
- arxiv url: http://arxiv.org/abs/2512.00417v1
- Date: Sat, 29 Nov 2025 09:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.231788
- Title: CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency
- Title(参考訳): CryptoBench: 暗号通貨におけるLLMエージェントのエキスパートレベル評価のための動的ベンチマーク
- Authors: Jiacheng Guo, Suozhi Huang, Zixin Yao, Yifan Zhang, Yifu Lu, Jiashuo Liu, Zihao Li, Yanyan Deng, Qixin Xiao, Jia Tian, Kanghong Zhan, Tianyi Li, Xiaochen Liu, Jason Ge, Chaoyang He, Kaixuan Huang, Lin Yang, Wenhao Huang, Mengdi Wang,
- Abstract要約: 本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
- 参考スコア(独自算出の注目度): 60.83660377169452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces CryptoBench, the first expert-curated, dynamic benchmark designed to rigorously evaluate the real-world capabilities of Large Language Model (LLM) agents in the uniquely demanding and fast-paced cryptocurrency domain. Unlike general-purpose agent benchmarks for search and prediction, professional crypto analysis presents specific challenges: \emph{extreme time-sensitivity}, \emph{a highly adversarial information environment}, and the critical need to synthesize data from \emph{diverse, specialized sources}, such as on-chain intelligence platforms and real-time Decentralized Finance (DeFi) dashboards. CryptoBench thus serves as a much more challenging and valuable scenario for LLM agent assessment. To address these challenges, we constructed a live, dynamic benchmark featuring 50 questions per month, expertly designed by crypto-native professionals to mirror actual analyst workflows. These tasks are rigorously categorized within a four-quadrant system: Simple Retrieval, Complex Retrieval, Simple Prediction, and Complex Prediction. This granular categorization enables a precise assessment of an LLM agent's foundational data-gathering capabilities alongside its advanced analytical and forecasting skills. Our evaluation of ten LLMs, both directly and within an agentic framework, reveals a performance hierarchy and uncovers a failure mode. We observe a \textit{retrieval-prediction imbalance}, where many leading models, despite being proficient at data retrieval, demonstrate a pronounced weakness in tasks requiring predictive analysis. This highlights a problematic tendency for agents to appear factually grounded while lacking the deeper analytical capabilities to synthesize information.
- Abstract(参考訳): 本稿ではCryptoBenchを紹介する。CryptoBenchは,Large Language Model (LLM)エージェントの現実の能力を,要求に富んだ高速な暗号ドメインにおいて厳格に評価するために設計された,最初の専門家による動的ベンチマークである。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析では、特定の課題を提示している。 \emph{extreme time-sensitivity}, \emph{a highly adversarial information environment}, そして、オンチェーンインテリジェンスプラットフォームやリアルタイム分散ファイナンス(DeFi)ダッシュボードのような、 \emph{diverse, special source}からデータを合成する必要がある。
したがってCryptoBenchは、LLMエージェントアセスメントにおいて、より困難で価値のあるシナリオとして機能する。
これらの課題に対処するため、私たちは、実際のアナリストワークフローを反映するように、暗号ネイティブの専門家によって専門的に設計された、月50の質問を特徴とする、ライブな動的ベンチマークを構築しました。
これらのタスクは、単純な検索、複雑な検索、単純な予測、複雑な予測という4つのクアドラントシステムに厳密に分類される。
この粒度の分類により、LLMエージェントの基本データ収集能力と高度な分析および予測スキルを正確に評価することができる。
エージェントフレームワークの直接的および内部的な10個のLLMの評価により,性能階層が明らかになり,障害モードが明らかになった。
データ検索に精通しているにもかかわらず、多くの主要なモデルが予測分析を必要とするタスクにおいて明らかな弱点を実証する「textit{retrieval-prediction im Balance}」を観察する。
このことは、エージェントが情報を合成するより深い分析能力に欠けながら、現実的に基盤として現れるという問題的な傾向を浮き彫りにしている。
関連論文リスト
- FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [92.7392863957204]
FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。
リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。
推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
論文 参考訳(メタデータ) (2025-08-16T08:54:08Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain [15.54631512567955]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的なパフォーマンスを達成した。
DMind Benchmarkは、9つの重要なサブフィールドをカバーする総合的なWeb3指向評価スイートである。
評価対象はChatGPT, Claude, DeepSeek, Gemini, Grok, Qwenなど26モデルである。
論文 参考訳(メタデータ) (2025-04-18T16:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。