論文の概要: Intent2Tx: Benchmarking LLMs for Translating Natural Language Intents into Ethereum Transactions
- arxiv url: http://arxiv.org/abs/2604.27763v1
- Date: Thu, 30 Apr 2026 11:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.076601
- Title: Intent2Tx: Benchmarking LLMs for Translating Natural Language Intents into Ethereum Transactions
- Title(参考訳): Intent2Tx: 自然言語インテントをEthereumトランザクションに変換するためのLLMのベンチマーク
- Authors: Zhuoran Pan, Yue Li, Zhi Guan, Jianbin Hu, Zhong Chen,
- Abstract要約: textscIntent2Txは、11のカテゴリにわたる現実世界のプロトコルインタラクションにおいて、自然言語の意図を基礎にしている。
textscIntent2Txは、意図中心のWeb3エコシステムにおいて、自律的で信頼性の高いエージェントを開発するための重要な基盤となっている。
- 参考スコア(独自算出の注目度): 6.606052122056915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Large Language Models (LLMs) offers a transformative interface for Web3, yet existing benchmarks fail to capture the complexity of translating high-level user intents into functionally correct, state-dependent on-chain transactions. We present \textsc{Intent2Tx}, a high-fidelity benchmark featuring 29,921 single-step and 1,575 multi-step instances meticulously derived from 300 days of real-world Ethereum mainnet traces. Unlike prior works that rely on synthetic instructions, \textsc{Intent2Tx} grounds natural language intents in real-world protocol interactions across 11 categories, including diverse long-tail Decentralized Finance (DeFi) primitives. To enable rigorous evaluation, we propose an execution-aware framework that transcends surface-level text matching by employing differential state analysis on forked mainnet environments. Our extensive evaluation of 16 state-of-the-art LLMs reveals that while scaling and retrieval-augmentation enhance logical consistency and parameter precision, current models struggle with out-of-distribution generalization and multi-step planning. Crucially, our execution-based analysis demonstrates that syntactically valid outputs often fail to achieve intended state transitions, highlighting a significant gap in current "reasoning-to-execution" capabilities. \textsc{Intent2Tx} serves as a critical foundation for developing autonomous, reliable agents in intent-centric Web3 ecosystems. Code and data: https://anonymous.4open.science/r/Intent2Tx_Bench-97FF .
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、Web3のトランスフォーメーションインターフェースを提供するが、既存のベンチマークは、高レベルのユーザインテントを機能的に正しい状態依存のオンチェーントランザクションに変換する複雑さを捉えていない。
29,921個のシングルステップと1,575個のマルチステップインスタンスを備えた高忠実度ベンチマークである‘textsc{Intent2Tx} を実世界のEthereumメインネットトレース300日分から巧みに抽出した。
合成命令に依存する以前の研究とは異なり、 \textsc{Intent2Tx} は、さまざまな長尾分散ファイナンス(DeFi)プリミティブを含む11のカテゴリにわたる現実世界のプロトコル相互作用において、自然言語の意図を基盤としている。
厳密な評価を可能にするために、フォークされたメインネット環境上での差分状態解析を用いて、表面レベルのテキストマッチングを超越する実行対応フレームワークを提案する。
16の最先端LCMを広範囲に評価した結果,拡張と探索により論理的整合性やパラメータの精度が向上する一方,現在のモデルでは分布外一般化と多段階計画に苦慮していることが明らかとなった。
重要なことは、我々の実行ベースの分析は、構文的に有効なアウトプットが意図した状態遷移を達成できないことがしばしばあり、現在の"推論から実行"能力の重大なギャップを浮き彫りにしている。
\textsc{Intent2Tx}は、意図中心のWeb3エコシステムにおいて、自律的で信頼性の高いエージェントを開発するための重要な基盤となっている。
コードとデータ:https://anonymous.4open.science/r/Intent2Tx_Bench-97FF
関連論文リスト
- $\mathcal{S}^2$IT: Stepwise Syntax Integration Tuning for Large Language Models in Aspect Sentiment Quad Prediction [51.165432266846096]
構文構造情報は、大言語モデル(LLM)の生成パラダイムにおいて未利用である
S2ITは、多段階のチューニングプロセスを通じて、構文構造知識をLLMに徐々に統合する。
実験により、S2ITは複数のデータセットにわたる最先端のパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2026-04-25T13:24:29Z) - TeleEmbedBench: A Multi-Corpus Embedding Benchmark for RAG in Telecommunications [2.2508462342902633]
大規模言語モデル(LLM)は、重要なタスクのために電気通信領域にますます多くデプロイされている。
TeleEmbedBenchは,通信専用に設計された,最初の大規模マルチコーパス埋め込みベンチマークである。
論文 参考訳(メタデータ) (2026-04-20T04:00:13Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm [8.405729585427226]
Chain-of-Thought(CoT)とその変種は、大規模言語モデル(LLM)の推論能力を著しく向上させた。
E2C$(Explore-Execute Chain)は、推論を2つの異なるフェーズに分離する構造化推論フレームワークである。
論文 参考訳(メタデータ) (2025-09-28T15:48:40Z) - Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。
3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。
実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文 参考訳(メタデータ) (2025-07-13T03:52:51Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。