論文の概要: When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets
- arxiv url: http://arxiv.org/abs/2510.00332v1
- Date: Tue, 30 Sep 2025 22:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.284051
- Title: When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets
- Title(参考訳): 幻覚の費用が数百万ドルになったとき:AIエージェントを高水準の敵対的金融市場でベンチマークする
- Authors: Zeshi Dai, Zimo Peng, Zerui Cheng, Ryan Yihe Li,
- Abstract要約: AI評価において重要な盲点を明らかにするベンチマークであるCAIAを提示する。
我々は178の時間短縮タスクに対して17のモデルを評価し,真理と操作の区別をエージェントに要求した。
ツールがなければ、フロンティアモデルでさえ、ジュニアアナリストが日常的に扱うタスクにおいて28%の精度しか達成できません。
- 参考スコア(独自算出の注目度): 0.3069921776214295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CAIA, a benchmark exposing a critical blind spot in AI evaluation: the inability of state-of-the-art models to operate in adversarial, high-stakes environments where misinformation is weaponized and errors are irreversible. While existing benchmarks measure task completion in controlled settings, real-world deployment demands resilience against active deception. Using crypto markets as a testbed where $30 billion was lost to exploits in 2024, we evaluate 17 models on 178 time-anchored tasks requiring agents to distinguish truth from manipulation, navigate fragmented information landscapes, and make irreversible financial decisions under adversarial pressure. Our results reveal a fundamental capability gap: without tools, even frontier models achieve only 28% accuracy on tasks junior analysts routinely handle. Tool augmentation improves performance but plateaus at 67.4% versus 80% human baseline, despite unlimited access to professional resources. Most critically, we uncover a systematic tool selection catastrophe: models preferentially choose unreliable web search over authoritative data, falling for SEO-optimized misinformation and social media manipulation. This behavior persists even when correct answers are directly accessible through specialized tools, suggesting foundational limitations rather than knowledge gaps. We also find that Pass@k metrics mask dangerous trial-and-error behavior for autonomous deployment. The implications extend beyond crypto to any domain with active adversaries, e.g. cybersecurity, content moderation, etc. We release CAIA with contamination controls and continuous updates, establishing adversarial robustness as a necessary condition for trustworthy AI autonomy. The benchmark reveals that current models, despite impressive reasoning scores, remain fundamentally unprepared for environments where intelligence must survive active opposition.
- Abstract(参考訳): 本稿では,AI評価における重要な盲点を明らかにするベンチマークであるCAIAについて述べる。
既存のベンチマークでは、コントロールされた設定でタスクの完了を計測するが、現実のデプロイメントでは、アクティブな詐欺に対するレジリエンスが要求される。
2024年に300億ドルの暗号通貨市場が悪用されたテストベッドとして、我々は178のタイムアンコールタスクにおいて17のモデルを評価し、エージェントが真理を操作と区別し、断片化された情報景観をナビゲートし、敵の圧力の下で不可逆的な財務決定を行うように要求した。
ツールがなければ、フロンティアモデルでさえ、ジュニアアナリストが日常的に扱うタスクにおいて28%の精度しか達成できません。
ツールの強化によりパフォーマンスは向上するが、プロのリソースを無制限に利用できるにもかかわらず、67.4%のベースラインと80%の人的ベースラインに比肩する。
モデルは、信頼できるデータよりも信頼できないWeb検索を選択し、SEOに最適化された誤情報やソーシャルメディア操作を優先的に選択する。
この行動は、知識ギャップよりも基礎的な制限を示唆する特別なツールを通じて、正しい回答が直接アクセス可能であったとしても継続する。
Pass@kメトリクスは、自律デプロイメントのための危険な試行錯誤行動を隠蔽していることもわかりました。
この意味は暗号化を超えて、アクティブな敵、例えばサイバーセキュリティ、コンテンツモデレーションなどを持つドメインにも及ぶ。
我々は、汚染制御と継続的更新を備えたCAIAをリリースし、信頼できるAI自律性に必要な条件として、敵の堅牢性を確立する。
このベンチマークによると、現在のモデルは、印象的な推論スコアにもかかわらず、諜報機関が積極的な反対を生き残らなければならない環境に対して、基本的に準備が整っていない。
関連論文リスト
- Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing [23.554239007767276]
本稿では,世界初の実世界のエージェント指向ペンテストベンチマークTermiBenchを紹介する。
本稿では,多エージェント浸透試験フレームワークTermiAgentを提案する。
評価において,本研究は最先端のエージェントより優れ,より強力な浸透試験能力を示す。
論文 参考訳(メタデータ) (2025-09-11T07:30:44Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks [1.3124479769761592]
本稿では,Large Language Model (LLM) 駆動自律システムを用いた新しいプロトタイプを提案する。
我々のシステムは、完全に自律的でLLM駆動のフレームワークがアカウントを妥協できる最初の実演である。
関連するコストは、プロフェッショナルな人間のペンテスト担当者によって引き起こされるコストと競合し、しばしばかなり低いことが分かりました。
論文 参考訳(メタデータ) (2025-02-06T17:12:43Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - TeD-SPAD: Temporal Distinctiveness for Self-supervised
Privacy-preservation for video Anomaly Detection [59.04634695294402]
人間の監視のないビデオ異常検出(VAD)は複雑なコンピュータビジョンタスクである。
VADのプライバシー漏洩により、モデルは人々の個人情報に関連する不必要なバイアスを拾い上げ、増幅することができる。
本稿では,視覚的プライベート情報を自己管理的に破壊する,プライバシーに配慮したビデオ異常検出フレームワークTeD-SPADを提案する。
論文 参考訳(メタデータ) (2023-08-21T22:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。