論文の概要: Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital
- arxiv url: http://arxiv.org/abs/2604.26091v1
- Date: Tue, 28 Apr 2026 20:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.15867
- Title: Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital
- Title(参考訳): 実資本下におけるオンチェーン言語モデルエージェントの動作層制御
- Authors: T. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau,
- Abstract要約: 本研究では,自律型言語モデルエージェントの信頼性について検討する。
当社は, 自己資本管理エージェントを, ユーザの委任から, 行動の迅速化, 評価, 解決に至るまで, 全経路にわたって評価すべきであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reliability in autonomous language-model agents that translate user mandates into validated tool actions under real capital. The setting is DX Terminal Pro, a 21-day deployment in which 3,505 user-funded agents traded real ETH in a bounded onchain market. Users configured vaults through structured controls and natural-language strategies, but only agents could choose normal buy/sell trades. The system produced 7.5M agent invocations, roughly 300K onchain actions, about $20M in volume, more than 5,000 ETH deployed, roughly 70B inference tokens, and 99.9% settlement success for policy-valid submitted transactions. Long-running agents accumulated thousands of sequential decisions, including 6,000+ prompt-state-action cycles for continuously active agents, yielding a large-scale trace from user mandate to rendered prompt, reasoning, validation, portfolio state, and settlement. Reliability did not come from the base model alone; it emerged from the operating layer around the model: prompt compilation, typed controls, policy validation, execution guards, memory design, and trace-level observability. Pre-launch testing exposed failures that text-only benchmarks rarely measure, including fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, and misread tokenomics. Targeted harness changes reduced fabricated sell rules from 57% to 3%, reduced fee-led observations from 32.5% to below 10%, and increased capital deployment from 42.9% to 78.0% in an affected test population. We show that capital-managing agents should be evaluated across the full path from user mandate to prompt, validated action, and settlement.
- Abstract(参考訳): 本研究では,自律型言語モデルエージェントの信頼性について検討する。
DX Terminal Proは21日間の展開で、3,505人のユーザー支援エージェントがバウンドオンチェーン市場でリアルETHを取引している。
ユーザーは構造化されたコントロールや自然言語戦略を通じて金庫室を設定できたが、通常の購入・販売の取引を選択できたのはエージェントのみであった。
このシステムは7.5Mのエージェント呼び出し、およそ300Kのオンチェーンアクション、約2000Mのボリューム、5,000ETHのデプロイ、約70Bの推論トークン、99.9%の決済成功を生んだ。
長期にわたるエージェントは数千のシーケンシャルな決定を蓄積し、その中には、アクティブなエージェントに対する6000以上のプロンプト-ステート-アクションサイクルが含まれ、ユーザの委任統治からプロンプト、推論、検証、ポートフォリオ状態、解決に至る大規模なトレースが得られた。
信頼性はベースモデルからではなく、プロンプトコンパイル、型付きコントロール、ポリシー検証、実行ガード、メモリ設計、トレースレベルの可観測性といったモデルを中心とした運用層から生まれました。
プレローンチテストでは、製造されたトレーディングルール、手数料の麻痺、数値アンカー、ケイデンストレーディング、誤読トケノミクスなど、テキストのみのベンチマークがほとんど測定できない障害が明らかになった。
目標とするハーネスの変更により、製造された販売ルールは57%から3%に減らされ、手数料による観察は32.5%から10%以下に減らされ、資本配置は42.9%から78.0%に増加した。
当社は, 自己資本管理エージェントを, ユーザの委任から, 行動の迅速化, 評価, 解決に至るまで, 全経路にわたって評価すべきであることを示す。
関連論文リスト
- Agent Control Protocol: Admission Control for Agent Actions [0.4929694290403903]
エージェントコントロールプロトコル(エージェントコントロールプロトコル、ACP)は、B2Bの機関環境における自律エージェントの受け入れ制御ガバナンスのための正式な仕様である。
ACPは、暗号ID、能力に基づく認可、決定論的リスク評価、連鎖デリゲート、および暗号化連鎖監査を定義する。
ACPはRBACとZero Trustの上で動作し、どちらのモデルも解決しない問題に対処する。
論文 参考訳(メタデータ) (2026-03-19T12:28:28Z) - How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition [48.32744727426218]
LLMベースのエージェントは、電子メール、ドキュメント、コードリポジトリなどの外部データソースを処理する高利得設定にますますデプロイされている。
これにより間接的なプロンプトインジェクション攻撃が発生し、外部コンテンツに埋め込まれた敵の命令は、ユーザの意識なしにエージェントの動作を操作できる。
この2つの目的を3つのエージェント設定で評価した。
論文 参考訳(メタデータ) (2026-03-16T14:49:36Z) - AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。
厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-03-03T04:59:25Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.55061622246824]
Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。
AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。
GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる薬剤を評価する。
論文 参考訳(メタデータ) (2025-10-13T17:54:09Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - AI Agent Architecture for Decentralized Trading of Alternative Assets [2.8195433571821162]
GoldMine OSは、ブロックチェーンベースのStablecoin("OZ")への物理的な金のトークン化と交換を自動化するために、複数の専門的AIエージェントを使用する研究指向アーキテクチャである。
本稿では,4つの協調エージェント(コンプライアンス,トークン発行,マーケットメイキング,リスクコントロール)とコーディネートコアについて述べる。
実験では、プロトタイプは需要トークンを1.2秒未満で提供し、手動よりも100倍以上高速である。
論文 参考訳(メタデータ) (2025-07-15T09:11:19Z) - AI Agent Smart Contract Exploit Generation [8.69235891205913]
A1は、いかなる大規模言語モデルもエンドツーエンドのエクスプロイトジェネレータに変換するエージェントシステムである。
A1は、自律的な脆弱性発見のための6つのドメイン固有のツールを提供する。
我々は、A1がエクスプロイト当たり最大8.59億ドル、合計9.33億ドルを抽出していることを示す。
論文 参考訳(メタデータ) (2025-07-08T00:45:26Z) - Blockchain Large Language Models [65.7726590159576]
本稿では,異常なブロックチェーントランザクションを検出するための動的,リアルタイムなアプローチを提案する。
提案するツールであるBlockGPTは、ブロックチェーンアクティビティのトレース表現を生成し、大規模な言語モデルをスクラッチからトレーニングして、リアルタイム侵入検出システムとして機能させる。
論文 参考訳(メタデータ) (2023-04-25T11:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。