論文の概要: CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency
- arxiv url: http://arxiv.org/abs/2512.00417v3
- Date: Mon, 08 Dec 2025 05:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 15:54:52.322156
- Title: CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency
- Title(参考訳): CryptoBench: 暗号通貨におけるLLMエージェントのエキスパートレベル評価のための動的ベンチマーク
- Authors: Jiacheng Guo, Suozhi Huang, Zixin Yao, Yifan Zhang, Yifu Lu, Jiashuo Liu, Zihao Li, Nicholas Deng, Qixin Xiao, Jia Tian, Kanghong Zhan, Tianyi Li, Xiaochen Liu, Jason Ge, Chaoyang He, Kaixuan Huang, Lin Yang, Wenhao Huang, Mengdi Wang,
- Abstract要約: 本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
- 参考スコア(独自算出の注目度): 60.83660377169452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces CryptoBench, the first expert-curated, dynamic benchmark designed to rigorously evaluate the real-world capabilities of Large Language Model (LLM) agents in the uniquely demanding and fast-paced cryptocurrency domain. Unlike general-purpose agent benchmarks for search and prediction, professional crypto analysis presents specific challenges: \emph{extreme time-sensitivity}, \emph{a highly adversarial information environment}, and the critical need to synthesize data from \emph{diverse, specialized sources}, such as on-chain intelligence platforms and real-time Decentralized Finance (DeFi) dashboards. CryptoBench thus serves as a much more challenging and valuable scenario for LLM agent assessment. To address these challenges, we constructed a live, dynamic benchmark featuring 50 questions per month, expertly designed by crypto-native professionals to mirror actual analyst workflows. These tasks are rigorously categorized within a four-quadrant system: Simple Retrieval, Complex Retrieval, Simple Prediction, and Complex Prediction. This granular categorization enables a precise assessment of an LLM agent's foundational data-gathering capabilities alongside its advanced analytical and forecasting skills. Our evaluation of ten LLMs, both directly and within an agentic framework, reveals a performance hierarchy and uncovers a failure mode. We observe a \textit{retrieval-prediction imbalance}, where many leading models, despite being proficient at data retrieval, demonstrate a pronounced weakness in tasks requiring predictive analysis. This highlights a problematic tendency for agents to appear factually grounded while lacking the deeper analytical capabilities to synthesize information.
- Abstract(参考訳): 本稿ではCryptoBenchを紹介する。CryptoBenchは,Large Language Model (LLM)エージェントの現実の能力を,要求に富んだ高速な暗号ドメインにおいて厳格に評価するために設計された,最初の専門家による動的ベンチマークである。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析では、特定の課題を提示している。 \emph{extreme time-sensitivity}, \emph{a highly adversarial information environment}, そして、オンチェーンインテリジェンスプラットフォームやリアルタイム分散ファイナンス(DeFi)ダッシュボードのような、 \emph{diverse, special source}からデータを合成する必要がある。
したがってCryptoBenchは、LLMエージェントアセスメントにおいて、より困難で価値のあるシナリオとして機能する。
これらの課題に対処するため、私たちは、実際のアナリストワークフローを反映するように、暗号ネイティブの専門家によって専門的に設計された、月50の質問を特徴とする、ライブな動的ベンチマークを構築しました。
これらのタスクは、単純な検索、複雑な検索、単純な予測、複雑な予測という4つのクアドラントシステムに厳密に分類される。
この粒度の分類により、LLMエージェントの基本データ収集能力と高度な分析および予測スキルを正確に評価することができる。
エージェントフレームワークの直接的および内部的な10個のLLMの評価により,性能階層が明らかになり,障害モードが明らかになった。
データ検索に精通しているにもかかわらず、多くの主要なモデルが予測分析を必要とするタスクにおいて明らかな弱点を実証する「textit{retrieval-prediction im Balance}」を観察する。
このことは、エージェントが情報を合成するより深い分析能力に欠けながら、現実的に基盤として現れるという問題的な傾向を浮き彫りにしている。
関連論文リスト
- CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis [7.007981312278749]
我々はCryptoAnalystBenchを紹介した。CryptoAnalystBenchは198のプロダクション暗号と11のカテゴリにまたがるDeFiクエリのベンチマークである。
本研究では,事実性チェックやLCMに基づく品質評価によって確実に把握できない7種類の高次誤差型の分類法を開発する。
これらの失敗は、最先端のシステムでも継続し、高い利害判断を損なう可能性があることに気付きました。
論文 参考訳(メタデータ) (2026-02-11T19:29:31Z) - CryptoQA: A Large-scale Question-answering Dataset for AI-assisted Cryptography [13.643089244089873]
本稿では,暗号に特化して設計された,最初の大規模質問応答データセットであるCryptoQAを紹介する。
我々は、CryptoQAで15の最先端LCMをベンチマークし、実際の精度、数学的推論、一貫性、参照、対向サンプルに対する堅牢性を評価した。
以上の結果から LLM の性能は著しく低下しており,特に形式的推論や正確な数学的知識を必要とするタスクにおいて顕著であることがわかった。
論文 参考訳(メタデータ) (2025-12-02T10:35:36Z) - APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training [48.20667772172573]
APTBenchは、現実世界のエージェントタスクと成功した軌道を多重選択やテキスト補完の質問に変換するフレームワークである。
中心となるエージェント能力、例えば計画と行動に焦点を当て、主要なエージェントシナリオ、ソフトウェア工学、深層研究をカバーしている。
既存の汎用ベンチマークと比較すると、APTBenchはモデル下流のパフォーマンスをエージェントとしてより予測的な信号を提供する。
論文 参考訳(メタデータ) (2025-10-28T13:11:22Z) - FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [92.7392863957204]
FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。
リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。
推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
論文 参考訳(メタデータ) (2025-08-16T08:54:08Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain [15.54631512567955]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的なパフォーマンスを達成した。
DMind Benchmarkは、9つの重要なサブフィールドをカバーする総合的なWeb3指向評価スイートである。
評価対象はChatGPT, Claude, DeepSeek, Gemini, Grok, Qwenなど26モデルである。
論文 参考訳(メタデータ) (2025-04-18T16:40:39Z) - FinRobot: AI Agent for Equity Research and Valuation with Large Language Models [6.2474959166074955]
本稿では、エクイティリサーチに特化したAIエージェントフレームワークであるFinRobotについて述べる。
FinRobotはマルチエージェント・チェーン・オブ・シント(CoT)システムを採用し、定量分析と定性的分析を統合し、人間のアナリストの包括的な推論をエミュレートする。
CapitalCubeやWright Reportsのような既存の自動研究ツールとは異なり、FinRobotは大手ブローカー会社や基礎研究ベンダーと同等の洞察を提供する。
論文 参考訳(メタデータ) (2024-11-13T17:38:07Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。