論文の概要: CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis
- arxiv url: http://arxiv.org/abs/2602.11304v1
- Date: Wed, 11 Feb 2026 19:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.505311
- Title: CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis
- Title(参考訳): CryptoAnalystBench:Multi-Tool Long-Form LLM解析における故障
- Authors: Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi,
- Abstract要約: 我々はCryptoAnalystBenchを紹介した。CryptoAnalystBenchは198のプロダクション暗号と11のカテゴリにまたがるDeFiクエリのベンチマークである。
本研究では,事実性チェックやLCMに基づく品質評価によって確実に把握できない7種類の高次誤差型の分類法を開発する。
これらの失敗は、最先端のシステムでも継続し、高い利害判断を損なう可能性があることに気付きました。
- 参考スコア(独自算出の注目度): 7.007981312278749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern analyst agents must reason over complex, high token inputs, including dozens of retrieved documents, tool outputs, and time sensitive data. While prior work has produced tool calling benchmarks and examined factuality in knowledge augmented systems, relatively little work studies their intersection: settings where LLMs must integrate large volumes of dynamic, structured and unstructured multi tool outputs. We investigate LLM failure modes in this regime using crypto as a representative high data density domain. We introduce (1) CryptoAnalystBench, an analyst aligned benchmark of 198 production crypto and DeFi queries spanning 11 categories; (2) an agentic harness equipped with relevant crypto and DeFi tools to generate responses across multiple frontier LLMs; and (3) an evaluation pipeline with citation verification and an LLM as a judge rubric spanning four user defined success dimensions: relevance, temporal relevance, depth, and data consistency. Using human annotation, we develop a taxonomy of seven higher order error types that are not reliably captured by factuality checks or LLM based quality scoring. We find that these failures persist even in state of the art systems and can compromise high stakes decisions. Based on this taxonomy, we refine the judge rubric to better capture these errors. While the judge does not align with human annotators on precise scoring across rubric iterations, it reliably identifies critical failure modes, enabling scalable feedback for developers and researchers studying analyst style agents. We release CryptoAnalystBench with annotated queries, the evaluation pipeline, judge rubrics, and the error taxonomy, and outline mitigation strategies and open challenges in evaluating long form, multi tool augmented systems.
- Abstract(参考訳): 現代の分析エージェントは、数十の検索されたドキュメント、ツール出力、時間に敏感なデータを含む、複雑で高いトークン入力を推論しなければならない。
これまでの作業では、知識拡張システムにおいて、ツールコールのベンチマークや事実性の検証が行われていたが、LLMが大量の動的、構造化された、非構造化されたマルチツール出力を統合する必要があるような、その交点についてはほとんど研究されていない。
本稿では,暗号を代表的高密度領域として用いたLCM故障モードについて検討する。
我々は,(1)198個の暗号およびDeFiクエリを11のカテゴリに分散した分析ベンチマークであるCryptoAnalystBench,(2)複数のフロンティアLSMにまたがる応答を生成するための関連する暗号およびDeFiツールを備えたエージェント・インテリジェンス,(3)4つのユーザ定義された成功度(関連性,時間的関連性,深さ,データの一貫性)にまたがる評価パイプラインについて紹介する。
人間のアノテーションを用いて,事実性検査やLLMに基づく品質評価によって確実に把握できない7種類の高次誤りの分類法を開発した。
これらの失敗は最先端のシステムでも継続し、高い利害関係者の判断を損なう可能性があることに気付きました。
この分類に基づいて、これらの誤りをよりよく捉えるために、審査官を洗練させます。
審査員は、粗末なイテレーションの正確なスコアリングに関して、人間のアノテータと一致しないが、重要な障害モードを確実に識別し、開発者やアナリストスタイルエージェントを研究する研究者のスケーラブルなフィードバックを可能にする。
我々はCryptoAnalystBenchにアノテートクエリ、評価パイプライン、判断ルーブリック、エラー分類を加えてリリースし、長い形式のマルチツール拡張システムを評価するための緩和戦略とオープンな課題を概説する。
関連論文リスト
- Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis [0.8193467416247519]
レビューとメタ分析は、物語を構造化され、数値化された研究記録に変換することに頼っている。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、このプロセスの構造的要件を満たすことができるかどうかは不明だ。
本稿では,LLMに基づくエビデンス抽出をスキーマ制約クエリの進行として評価する構造的診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:09:43Z) - CryptoQA: A Large-scale Question-answering Dataset for AI-assisted Cryptography [13.643089244089873]
本稿では,暗号に特化して設計された,最初の大規模質問応答データセットであるCryptoQAを紹介する。
我々は、CryptoQAで15の最先端LCMをベンチマークし、実際の精度、数学的推論、一貫性、参照、対向サンプルに対する堅牢性を評価した。
以上の結果から LLM の性能は著しく低下しており,特に形式的推論や正確な数学的知識を必要とするタスクにおいて顕著であることがわかった。
論文 参考訳(メタデータ) (2025-12-02T10:35:36Z) - CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency [60.83660377169452]
本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
論文 参考訳(メタデータ) (2025-11-29T09:52:34Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Towards Interactive Deepfake Analysis [40.0271474912034]
本稿では,マルチモーダル大言語モデル(MLLM)の命令チューニングによる対話型ディープフェイク解析の探索を目的とする。
これらの課題に対処するために,(1)DFA-Instructと呼ばれるインストラクションフォローデータセットを実現するGPT支援データ構築プロセス,(2)DFA-Benchというベンチマーク,(3)DFA-GPTと呼ばれる対話型ディープフェイク分析システムをコミュニティの強力なベースラインとして構築する深度検出・深度分類・アーティファクト記述におけるMLLMの能力を包括的に評価することを目的とした,DFA-Benchというベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-02T09:34:11Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。