論文の概要: DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain
- arxiv url: http://arxiv.org/abs/2504.16116v1
- Date: Fri, 18 Apr 2025 16:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.840154
- Title: DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain
- Title(参考訳): DMind Benchmark:Web3ドメインでのLCM評価のための最初の総合ベンチマーク
- Authors: Miracle Master, Rainy Sun, Anya Reese, Joey Ouyang, Alex Chen, Winter Dong, Frank Li, James Yi, Garry Zhao, Tony Ling, Hobert Wong, Lowes Yang,
- Abstract要約: DMind Benchmarkは、9つの主要なカテゴリにまたがる大規模言語モデル(LLM)を体系的にテストする新しいフレームワークである。
DMind Benchmarkは、ドメイン固有の主観的タスクを取り入れることで、従来の複数の選択の質問を越えている。
我々はDMind Benchmarkで15の人気のあるLCMを評価し、Web3固有の推論とアプリケーションの性能ギャップを明らかにする。
- 参考スコア(独自算出の注目度): 4.419596289222511
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have led to significant progress on a wide range of natural language processing tasks. However, their effectiveness in specialized and rapidly evolving domains such as Web3 remains underexplored. In this paper, we introduce DMind Benchmark, a novel framework that systematically tests LLMs across nine key categories encompassing blockchain fundamentals, infrastructure, smart contract analysis, decentralized finance (DeFi), decentralized autonomous organizations (DAOs), non-fungible tokens (NFTs), token economics, meme concepts, and security vulnerabilities. DMind Benchmark goes beyond conventional multiple-choice questions by incorporating domain-specific subjective tasks (e.g., smart contract code auditing and repair, numeric reasoning on on-chain data, and fill-in assessments), thereby capturing real-world complexities and stress-testing model adaptability. We evaluate fifteen popular LLMs (from ChatGPT, DeepSeek, Claude, and Gemini series) on DMind Benchmark, uncovering performance gaps in Web3-specific reasoning and application, particularly in emerging areas like token economics and meme concepts. Even the strongest models face significant challenges in identifying subtle security vulnerabilities and analyzing complex DeFi mechanisms. To foster progress in this area, we publicly release our benchmark dataset, evaluation pipeline, and annotated results at http://www.dmind.ai, offering a valuable resource for advancing specialized domain adaptation and the development of more robust Web3-enabled LLMs.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は、幅広い自然言語処理タスクにおいて大きな進歩をもたらした。
しかし、Web3のような専門的で急速に進化するドメインにおけるそれらの効果は、まだ未定である。
本稿では、ブロックチェーンの基礎、インフラストラクチャ、スマートコントラクト分析、分散金融(DeFi)、分散自律組織(DAO)、非脆弱トークン(NFT)、トークンエコノミクス、ミーム概念、セキュリティ脆弱性を含む9つの主要なカテゴリでLLMを体系的にテストする新しいフレームワークであるDMind Benchmarkを紹介する。
DMind Benchmarkは、ドメイン固有の主観的なタスク(例えば、スマートコントラクトコードの監査と修復、オンチェーンデータに対する数値推論、およびフィリングアセスメント)を組み込むことで、従来の複数項目の質問に留まらず、現実の複雑さとストレステストモデルの適応性をキャプチャする。
我々は、DMind Benchmark上で15の人気のあるLCM(ChatGPT、DeepSeek、Claude、Geminiシリーズ)を評価し、特にトークン経済学やミームの概念のような新興分野において、Web3固有の推論と応用におけるパフォーマンスギャップを明らかにする。
最強のモデルでさえ、微妙なセキュリティ脆弱性を特定し、複雑なDeFiメカニズムを分析する上で重大な課題に直面している。
この領域の進歩を促進するため、私たちはhttp://www.dmind.aiでベンチマークデータセット、評価パイプライン、注釈付き結果を公開しました。
関連論文リスト
- A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - AttackSeqBench: Benchmarking Large Language Models' Understanding of Sequential Patterns in Cyber Attacks [13.082370325093242]
我々は,サイバー脅威インテリジェンス(CTI)レポートにおいて,攻撃シーケンスの理解と推論を行うLarge Language Models(LLM)能力を評価するためのベンチマークであるAttackSeqBenchを紹介する。
本ベンチマークでは,3つの質問応答(QA)タスクを対象とし,各タスクは,相手行動の粒度の違いに焦点をあてる。
サイバー攻撃のシーケンシャルなパターンを分析する上での、その強みと限界を強調しながら、高速思考とスロー思考の両方で広範な実験と分析を行う。
論文 参考訳(メタデータ) (2025-03-05T04:25:21Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity [23.32017147274093]
SecBenchは、サイバーセキュリティドメインの大規模言語モデル(LLM)を評価するために設計されたベンチマークデータセットである。
このデータセットは、オープンソースから高品質なデータを収集し、サイバーセキュリティ質問設計コンテストを組織することで構築された。
16個のSOTA LLMのベンチマーク結果はSecBenchのユーザビリティを示している。
論文 参考訳(メタデータ) (2024-12-30T08:11:54Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - OpenPerf: A Benchmarking Framework for the Sustainable Development of
the Open-Source Ecosystem [6.188178422139467]
OpenPerfは、オープンソースエコシステムの持続可能な開発のために設計されたベンチマークフレームワークである。
データサイエンスタスクのベンチマークが3つ、インデックスベースのベンチマークが2つ、標準ベンチマークが1つ実装されています。
私たちは、堅牢なデータ管理、ツール統合、ユーザインターフェース機能を提供するOpenPerf用の包括的なツールキットを開発しました。
論文 参考訳(メタデータ) (2023-11-26T07:01:36Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。