論文の概要: DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain
- arxiv url: http://arxiv.org/abs/2504.16116v2
- Date: Fri, 16 May 2025 12:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.877917
- Title: DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain
- Title(参考訳): DMindベンチマーク: Web3ドメイン全体にわたるLLM能力の全体的評価に向けて
- Authors: Enhao Huang, Pengyu Sun, Zixin Lin, Alex Chen, Joey Ouyang, Hobert Wang, Dong Dong, Gang Zhao, James Yi, Frank Li, Ziang Ling, Lowes Yang,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的なパフォーマンスを達成した。
DMind Benchmarkは、9つの重要なサブフィールドをカバーする総合的なWeb3指向評価スイートである。
評価対象はChatGPT, Claude, DeepSeek, Gemini, Grok, Qwenなど26モデルである。
- 参考スコア(独自算出の注目度): 6.275468311396066
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have achieved impressive performance in diverse natural language processing tasks, but specialized domains such as Web3 present new challenges and require more tailored evaluation. Despite the significant user base and capital flows in Web3, encompassing smart contracts, decentralized finance (DeFi), non-fungible tokens (NFTs), decentralized autonomous organizations (DAOs), on-chain governance, and novel token-economics, no comprehensive benchmark has systematically assessed LLM performance in this domain. To address this gap, we introduce the DMind Benchmark, a holistic Web3-oriented evaluation suite covering nine critical subfields: fundamental blockchain concepts, blockchain infrastructure, smart contract, DeFi mechanisms, DAOs, NFTs, token economics, meme concept, and security vulnerabilities. Beyond multiple-choice questions, DMind Benchmark features domain-specific tasks such as contract debugging and on-chain numeric reasoning, mirroring real-world scenarios. We evaluated 26 models, including ChatGPT, Claude, DeepSeek, Gemini, Grok, and Qwen, uncovering notable performance gaps in specialized areas like token economics and security-critical contract analysis. While some models excel in blockchain infrastructure tasks, advanced subfields remain challenging. Our benchmark dataset and evaluation pipeline are open-sourced on https://huggingface.co/datasets/DMindAI/DMind_Benchmark, reaching number one in Hugging Face's trending dataset charts within a week of release.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを達成したが、Web3のような特殊なドメインは新しい課題を提示し、より適切な評価を必要とする。
スマートコントラクト、分散ファイナンス(DeFi)、非脆弱トークン(NFT)、分散自律組織(DAO)、オンチェーンガバナンス、新しいトークン・エコノミクスを含むWeb3の重要なユーザベースと資本フローにもかかわらず、この領域でLLMのパフォーマンスを体系的に評価する包括的なベンチマークは行われていない。
基本的なブロックチェーンの概念、ブロックチェーンインフラストラクチャ、スマートコントラクト、DeFiメカニズム、DAO、NTT、トークンエコノミクス、ミームコンセプト、セキュリティ脆弱性という、9つの重要なサブフィールドをカバーする、総合的なWeb3指向評価スイートであるDMind Benchmarkを紹介します。
複数項目の質問以外にも、DMind Benchmarkでは、コントラクトデバッグやオンチェーンの数値推論、現実世界のシナリオのミラーリングといった、ドメイン固有のタスクが特徴である。
私たちはChatGPT、Claude、DeepSeek、Gemini、Grok、Qwenを含む26のモデルを評価し、トークン経済学やセキュリティクリティカルな契約分析といった専門分野における顕著なパフォーマンスギャップを明らかにしました。
ブロックチェーンインフラストラクチャのタスクが優れているモデルもあるが、高度なサブフィールドは依然として難しい。
私たちのベンチマークデータセットと評価パイプラインはhttps://huggingface.co/datasets/DMindAI/DMind_Benchmarkでオープンソース化されています。
関連論文リスト
- A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - AttackSeqBench: Benchmarking Large Language Models' Understanding of Sequential Patterns in Cyber Attacks [13.082370325093242]
我々は,サイバー脅威インテリジェンス(CTI)レポートにおいて,攻撃シーケンスの理解と推論を行うLarge Language Models(LLM)能力を評価するためのベンチマークであるAttackSeqBenchを紹介する。
本ベンチマークでは,3つの質問応答(QA)タスクを対象とし,各タスクは,相手行動の粒度の違いに焦点をあてる。
サイバー攻撃のシーケンシャルなパターンを分析する上での、その強みと限界を強調しながら、高速思考とスロー思考の両方で広範な実験と分析を行う。
論文 参考訳(メタデータ) (2025-03-05T04:25:21Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity [23.32017147274093]
SecBenchは、サイバーセキュリティドメインの大規模言語モデル(LLM)を評価するために設計されたベンチマークデータセットである。
このデータセットは、オープンソースから高品質なデータを収集し、サイバーセキュリティ質問設計コンテストを組織することで構築された。
16個のSOTA LLMのベンチマーク結果はSecBenchのユーザビリティを示している。
論文 参考訳(メタデータ) (2024-12-30T08:11:54Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - OpenPerf: A Benchmarking Framework for the Sustainable Development of
the Open-Source Ecosystem [6.188178422139467]
OpenPerfは、オープンソースエコシステムの持続可能な開発のために設計されたベンチマークフレームワークである。
データサイエンスタスクのベンチマークが3つ、インデックスベースのベンチマークが2つ、標準ベンチマークが1つ実装されています。
私たちは、堅牢なデータ管理、ツール統合、ユーザインターフェース機能を提供するOpenPerf用の包括的なツールキットを開発しました。
論文 参考訳(メタデータ) (2023-11-26T07:01:36Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。