論文の概要: EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation
- arxiv url: http://arxiv.org/abs/2601.06565v1
- Date: Sat, 10 Jan 2026 13:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.878973
- Title: EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation
- Title(参考訳): EVM-QuestBench: 自然言語トランザクションコード生成のための実行時のベンチマーク
- Authors: Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi,
- Abstract要約: オンチェーントランザクションのシナリオでは、小さなエラーでさえ、ユーザにとって不可逆的な損失を引き起こす可能性がある。
EVM-QuestBenchは自然言語トランザクションスクリプト生成のための実行基盤ベンチマークである。
単一動作精度と複数ステップのワークフロー完了の間に永続的な非対称性を示す分割スコアを用いて,20のモデルを評価し,大きな性能ギャップを求める。
- 参考スコア(独自算出の注目度): 9.472124187479915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly applied to various development scenarios. However, in on-chain transaction scenarios, even a minor error can cause irreversible loss for users. Existing evaluations often overlook execution accuracy and safety. We introduce EVM-QuestBench, an execution-grounded benchmark for natural-language transaction-script generation on EVM-compatible chains. The benchmark employs dynamic evaluation: instructions are sampled from template pools, numeric parameters are drawn from predefined intervals, and validators verify outcomes against these instantiated values. EVM-QuestBench contains 107 tasks (62 atomic, 45 composite). Its modular architecture enables rapid task development. The runner executes scripts on a forked EVM chain with snapshot isolation; composite tasks apply step-efficiency decay. We evaluate 20 models and find large performance gaps, with split scores revealing persistent asymmetry between single-action precision and multi-step workflow completion. Code: https://anonymous.4open.science/r/bsc_quest_bench-A9CF/.
- Abstract(参考訳): 大規模言語モデルは、様々な開発シナリオにますます適用されています。
しかし、オンチェーントランザクションのシナリオでは、小さなエラーでさえユーザにとって不可逆的な損失を引き起こす可能性がある。
既存の評価は、しばしば実行の正確さと安全性を見落としている。
EVM互換チェーン上での自然言語トランザクションスクリプト生成のための実行基盤ベンチマークであるEVM-QuestBenchを紹介する。
インストラクションはテンプレートプールからサンプリングされ、数値パラメータは事前に定義された間隔から引き出され、バリデーターはこれらのインスタンス化された値に対して結果を検証する。
EVM-QuestBenchには107のタスク(62のアトミック、45のコンポジット)が含まれている。
モジュラーアーキテクチャは、迅速なタスク開発を可能にする。
ランナーは、スナップショット分離されたフォークEVMチェーン上でスクリプトを実行する。
単一動作精度と複数ステップのワークフロー完了の間に持続的非対称性を示す分割スコアを用いて,20のモデルを評価し,大きな性能ギャップを求める。
コード:https://anonymous.4open.science/r/bsc_quest_bench-A9CF/。
関連論文リスト
- Correctness isnt Efficiency: Runtime Memory Divergence in LLM-Generated Code [10.464512010462789]
大規模言語モデル(LLM)は単体テストに合格するプログラムを生成することができるが、テストに合格しても信頼できる実行動作は保証されない。
同じタスクに対する異なる正しいソリューションは、非常に異なるメモリとパフォーマンスパターンを示し、それが隠れた運用上のリスクを引き起こす可能性があることに気付きました。
本稿では,複数世代にわたる実行時メモリの安定性を計測するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-03T15:42:21Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning [6.282781900938977]
複雑な多機能理解と細粒度実行推論のための新しいベンチマークであるSTEPWISE-CODEX-Bench(SX-Bench)を提案する。
SX-Benchは非常に差別的であり、最先端のOpenAI-O3でさえハード推論タスクでは78.7%の精度しか達成していない。
論文 参考訳(メタデータ) (2025-08-07T09:28:43Z) - ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities [14.13459302125202]
大きな言語モデル(LLM)の一貫性を評価することは、信頼性を確保するために不可欠である。
従来の自己整合性メソッドは、自然言語の微妙な意味的変化や、コードや方程式の関数的シフトを見逃すことが多い。
可逆変換のシーケンスによる一貫性の測定を目的とした木に基づく評価フレームワークであるConsistencyCheckerを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:18:33Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。