論文の概要: LATTICE: Evaluating Decision Support Utility of Crypto Agents
- arxiv url: http://arxiv.org/abs/2604.26235v1
- Date: Wed, 29 Apr 2026 02:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.228499
- Title: LATTICE: Evaluating Decision Support Utility of Crypto Agents
- Title(参考訳): LATTICE:暗号エージェントの意思決定支援ユーティリティの評価
- Authors: Aaron Chan, Tengfei Li, Tianyi Xiao, Angela Chen, Junyi Du, Xiang Ren,
- Abstract要約: LATTICEは、現実的なユーザ向けシナリオにおいて、暗号エージェントの決定サポートユーティリティを評価するためのベンチマークである。
実験の結果,テスト対象のコピロは,ほぼ同等のアグリゲーションスコアが得られたが,ディメンションレベルやタスクレベルのパフォーマンスは明らかに異なることがわかった。
- 参考スコア(独自算出の注目度): 23.32869315594442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LATTICE, a benchmark for evaluating the decision support utility of crypto agents in realistic user-facing scenarios. Prior crypto agent benchmarks mainly focus on reasoning-based or outcome-based evaluation, but do not assess agents' ability to assist user decision-making. LATTICE addresses this gap by: (1) defining six evaluation dimensions that capture key decision support properties; (2) proposing 16 task types that span the end-to-end crypto copilot workflow; and (3) using LLM judges to automatically score agent outputs based on these dimensions and tasks. Crucially, the dimensions and tasks are designed to be evaluable at scale using LLM judges, without relying on ground truth from expert annotators or external data sources. In lieu of these dependencies, LATTICE's LLM judge rubrics can be continually audited and updated given new dimensions, tasks, criteria, and human feedback, thus promoting reliable and extensible evaluation. While other benchmarks often compare foundation models sharing a generic agent framework, we use LATTICE to assess production-level agents used in actual crypto copilot products, reflecting the importance of orchestration and UI/UX design in determining agent quality. In this paper, we evaluate six real-world crypto copilots on 1,200 diverse queries and report breakdowns across dimensions, tasks, and query categories. Our experiments show that most of the tested copilots achieve comparable aggregate scores, but differ more significantly on dimension-level and task-level performance. This pattern suggests meaningful trade-offs in decision support quality: users with different priorities may be better served by different copilots than the aggregate rankings alone would indicate. To support reproducible research, we open-source all LATTICE code and data used in this paper.
- Abstract(参考訳): 我々は,現実的なユーザ対応シナリオにおいて,暗号エージェントの意思決定支援ユーティリティを評価するためのベンチマークであるLATTICEを紹介する。
従来の暗号エージェントベンチマークは主に推論や結果に基づく評価に重点を置いていたが、ユーザーの意思決定を支援するエージェントの能力は評価していない。
LATTICEは、(1)鍵決定支援特性をキャプチャする6つの評価次元、(2)エンドツーエンドの暗号通信ワークフローにまたがる16のタスクタイプの提案、(3)LLMの判断を用いて、これらの次元とタスクに基づいてエージェント出力を自動的にスコアする。
重要なことは、次元とタスクは、専門家アノテータや外部データソースからの根拠を頼らずに、LLMの判断を用いて大規模に評価できるように設計されている。
これらの依存関係の代わりに、LATTICEのLCM判断ルーブリックは、新しい次元、タスク、基準、および人間のフィードバックによって継続的に監査および更新され、信頼性と拡張性の評価が促進される。
他のベンチマークでは、一般的なエージェントフレームワークを共有する基盤モデルと比較することが多いが、私たちはLATTICEを使用して、実際の暗号通信製品で使用されるプロダクションレベルのエージェントを評価し、エージェントの品質を決定する上で、オーケストレーションとUI/UX設計の重要性を反映している。
本稿では,1200の多様なクエリに対して,実世界の6つの暗号コーパスを評価し,ディメンジョン,タスク,クエリのカテゴリの内訳を報告する。
実験の結果,テスト対象のコピロは,ほぼ同等のアグリゲーションスコアが得られたが,ディメンションレベルやタスクレベルのパフォーマンスは明らかに異なることがわかった。
このパターンは、意思決定支援の品質において有意義なトレードオフを示唆している。
再現可能な研究を支援するため,我々はLATTICEのコードとデータをオープンソース化した。
関連論文リスト
- How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation [4.08768677009363]
本稿では,タスク領域に依存しないエージェントタスク完了を評価するための,汎用的でモジュール化されたフレームワークを提案する。
GAIAとBigCodeBenchの2つのベンチマークでMagentic-One Actor Agentを評価することで、我々のフレームワークを検証する。
我々の審査員は、人間の評価と密接に一致したタスクの成功を予測し、それぞれ4.76%と10.52%のアライメント精度を達成した。
論文 参考訳(メタデータ) (2025-08-07T15:39:48Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - PentestJudge: Judging Agent Behavior Against Operational Requirements [0.0]
PentestJudgeは、侵入テストエージェントの操作を評価するシステムである。
判定エージェントとして機能するモデルをいくつか評価し、最良のモデルがF1スコア0.83まで到達した。
論文 参考訳(メタデータ) (2025-08-04T21:52:50Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。