論文の概要: Benchmarking LLM Agents for Wealth-Management Workflows
- arxiv url: http://arxiv.org/abs/2512.02230v1
- Date: Mon, 01 Dec 2025 21:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.624716
- Title: Benchmarking LLM Agents for Wealth-Management Workflows
- Title(参考訳): 重み管理ワークフローのためのLLMエージェントのベンチマーク
- Authors: Rory Milsom,
- Abstract要約: この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張している。
本研究は、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern work relies on an assortment of digital collaboration tools, yet routine processes continue to suffer from human error and delay. To address this gap, this dissertation extends TheAgentCompany with a finance-focused environment and investigates whether a general purpose LLM agent can complete representative wealth-management tasks both accurately and economically. This study introduces synthetic domain data, enriches colleague simulations, and prototypes an automatic task-generation pipeline. The study aims to create and assess an evaluation set that can meaningfully measure an agent's fitness for assistant-level wealth management work. We construct a benchmark of 12 task-pairs for wealth management assistants spanning retrieval, analysis, and synthesis/communication, with explicit acceptance criteria and deterministic graders. We seeded a set of new finance-specific data and introduced a high vs. low-autonomy variant of every task. The paper concluded that agents are limited less by mathematical reasoning and more so by end-to-end workflow reliability, and meaningfully affected by autonomy level, and that incorrect evaluation of models have hindered benchmarking.
- Abstract(参考訳): 現代の作業はデジタルコラボレーションツールに頼っているが、日常的なプロセスは人間のエラーや遅延に悩まされ続けている。
このギャップに対処するため、この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張し、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
本研究では、合成ドメインデータを導入し、協調シミュレーションを強化し、自動タスク生成パイプラインのプロトタイプを作成する。
本研究の目的は,アシスタントレベルの富管理作業に対するエージェントの適合度を有意に測定できる評価セットを作成し,評価することである。
本研究では、検索・分析・合成・通信にまたがるウェルスマネジメントアシスタントのための12のタスクペアのベンチマークを構築し、明示的な受理基準と決定論的グレーダを構築した。
我々は、新しい金融特化データのセットをシードし、すべてのタスクのハイ対ローオートノミーのバリエーションを導入しました。
本論文は、エージェントは数学的推論によって制限され、エンドツーエンドのワークフローの信頼性によって制限され、自律性レベルに有意な影響を受け、モデルの誤った評価がベンチマークを妨げていると結論付けた。
関連論文リスト
- AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - How AI Forecasts AI Jobs: Benchmarking LLM Predictions of Labor Market Changes [5.848712585343904]
本稿では,大規模言語モデル(LLM)が仕事需要の変化をどの程度予測できるかを評価するためのベンチマークを紹介する。
当社のベンチマークでは、米国におけるセクターレベルの求職率の高頻度指標と、AIの採用による職業変化のグローバルデータセットの2つのデータセットを組み合わせています。
その結果、構造化タスクは予測安定性を継続的に改善し、ペルソナプロンプトは短期的な傾向に有利であることがわかった。
論文 参考訳(メタデータ) (2025-10-27T14:08:27Z) - FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [92.7392863957204]
FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。
リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。
推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
論文 参考訳(メタデータ) (2025-08-16T08:54:08Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments [0.0699049312989311]
我々は,未知の環境下で行動し,学習し,戦略を立てるLLMエージェントのベンチマークを開発する。
また, LLM および LLM エージェントの新しい定量尺度であるlitmus test も提案する。
論文 参考訳(メタデータ) (2025-03-24T16:06:04Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。