論文の概要: Benchmarking LLM Agents for Wealth-Management Workflows
- arxiv url: http://arxiv.org/abs/2512.02230v1
- Date: Mon, 01 Dec 2025 21:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.624716
- Title: Benchmarking LLM Agents for Wealth-Management Workflows
- Title(参考訳): 重み管理ワークフローのためのLLMエージェントのベンチマーク
- Authors: Rory Milsom,
- Abstract要約: この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張している。
本研究は、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern work relies on an assortment of digital collaboration tools, yet routine processes continue to suffer from human error and delay. To address this gap, this dissertation extends TheAgentCompany with a finance-focused environment and investigates whether a general purpose LLM agent can complete representative wealth-management tasks both accurately and economically. This study introduces synthetic domain data, enriches colleague simulations, and prototypes an automatic task-generation pipeline. The study aims to create and assess an evaluation set that can meaningfully measure an agent's fitness for assistant-level wealth management work. We construct a benchmark of 12 task-pairs for wealth management assistants spanning retrieval, analysis, and synthesis/communication, with explicit acceptance criteria and deterministic graders. We seeded a set of new finance-specific data and introduced a high vs. low-autonomy variant of every task. The paper concluded that agents are limited less by mathematical reasoning and more so by end-to-end workflow reliability, and meaningfully affected by autonomy level, and that incorrect evaluation of models have hindered benchmarking.
- Abstract(参考訳): 現代の作業はデジタルコラボレーションツールに頼っているが、日常的なプロセスは人間のエラーや遅延に悩まされ続けている。
このギャップに対処するため、この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張し、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
本研究では、合成ドメインデータを導入し、協調シミュレーションを強化し、自動タスク生成パイプラインのプロトタイプを作成する。
本研究の目的は,アシスタントレベルの富管理作業に対するエージェントの適合度を有意に測定できる評価セットを作成し,評価することである。
本研究では、検索・分析・合成・通信にまたがるウェルスマネジメントアシスタントのための12のタスクペアのベンチマークを構築し、明示的な受理基準と決定論的グレーダを構築した。
我々は、新しい金融特化データのセットをシードし、すべてのタスクのハイ対ローオートノミーのバリエーションを導入しました。
本論文は、エージェントは数学的推論によって制限され、エンドツーエンドのワークフローの信頼性によって制限され、自律性レベルに有意な影響を受け、モデルの誤った評価がベンチマークを妨げていると結論付けた。
関連論文リスト
- What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs [21.656551146954587]
大規模言語モデル(LLM)は自動化への道筋を提供する。
190の企業レポートから,新たな構造化データセットを導入する。
その結果,定性的タスクと量的タスクの間に明らかなパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-12-30T15:28:03Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - How AI Forecasts AI Jobs: Benchmarking LLM Predictions of Labor Market Changes [5.848712585343904]
本稿では,大規模言語モデル(LLM)が仕事需要の変化をどの程度予測できるかを評価するためのベンチマークを紹介する。
当社のベンチマークでは、米国におけるセクターレベルの求職率の高頻度指標と、AIの採用による職業変化のグローバルデータセットの2つのデータセットを組み合わせています。
その結果、構造化タスクは予測安定性を継続的に改善し、ペルソナプロンプトは短期的な傾向に有利であることがわかった。
論文 参考訳(メタデータ) (2025-10-27T14:08:27Z) - FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [92.7392863957204]
FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。
リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。
推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
論文 参考訳(メタデータ) (2025-08-16T08:54:08Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments [0.0699049312989311]
我々は,未知の環境下で行動し,学習し,戦略を立てるLLMエージェントのベンチマークを開発する。
また, LLM および LLM エージェントの新しい定量尺度であるlitmus test も提案する。
論文 参考訳(メタデータ) (2025-03-24T16:06:04Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。