論文の概要: Toward Reliable Evaluation of LLM-Based Financial Multi-Agent Systems: Taxonomy, Coordination Primacy, and Cost Awareness
- arxiv url: http://arxiv.org/abs/2603.27539v1
- Date: Sun, 29 Mar 2026 06:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.014736
- Title: Toward Reliable Evaluation of LLM-Based Financial Multi-Agent Systems: Taxonomy, Coordination Primacy, and Cost Awareness
- Title(参考訳): LLMに基づく金融マルチエージェントシステムの信頼性評価に向けて:分類学、コーディネーション・プライマリシー、コスト意識
- Authors: Phat Nguyen, Thang Pham,
- Abstract要約: 金融取引のマルチエージェントシステムは2023年以来急速に成長している。
この分野には、パフォーマンスを駆動するものや、クレームの信頼性を評価するための共有フレームワークがありません。
アーキテクチャパターン,コーディネーション機構,メモリアーキテクチャ,ツール統合を網羅した4次元分類法を導入する。
- 参考スコア(独自算出の注目度): 2.851924490038232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems based on large language models (LLMs) for financial trading have grown rapidly since 2023, yet the field lacks a shared framework for understanding what drives performance or for evaluating claims credibly. This survey makes three contributions. First, we introduce a four-dimensional taxonomy, covering architecture pattern, coordination mechanism, memory architecture, and tool integration; applied to 12 multi-agent systems and two single-agent baselines. Second, we formulate the Coordination Primacy Hypothesis (CPH): inter-agent coordination protocol design is a primary driver of trading decision quality, often exerting greater influence than model scaling. CPH is presented as a falsifiable research hypothesis supported by tiered structural evidence rather than as an empirically validated conclusion; its definitive validation requires evaluation infrastructure that does not yet exist in the field. Third, we document five pervasive evaluation failures (look-ahead bias, survivorship bias, backtesting overfitting, transaction cost neglect, and regime-shift blindness) and show that these can reverse the sign of reported returns. Building on the CPH and the evaluation critique, we introduce the Coordination Breakeven Spread (CBS), a metric for determining whether multi-agent coordination adds genuine value net of transaction costs, and propose minimum evaluation standards as prerequisites for validating the CPH.
- Abstract(参考訳): 2023年以降、金融取引のための大規模言語モデル(LLM)に基づくマルチエージェントシステムは急速に成長してきたが、パフォーマンスを駆動する要因やクレームの信頼性を評価するための共通フレームワークが欠如している。
この調査には3つの貢献がある。
まず,12のマルチエージェントシステムと2つの単一エージェントベースラインに適用可能な,アーキテクチャパターン,コーディネーション機構,メモリアーキテクチャ,ツール統合を網羅した4次元分類法を提案する。
第2に、コーディネーションプライマシー仮説(CPH)を定式化する: エージェント間協調プロトコル設計は、取引品質の主要な要因であり、しばしばモデルスケーリングよりも大きな影響を与える。
CPHは、実証的に検証された結論ではなく、結合された構造的証拠によって支持される偽造可能な研究仮説として提示され、その決定的検証には、まだ現場に存在しない評価基盤が必要である。
第3に,5つの広範囲な評価失敗(見通しバイアス,生存者バイアス,バックテストオーバーフィット,取引コストの無視,体制シフト盲点)を文書化し,報告されたリターンの兆候を逆転させることができることを示す。
CPHと評価基準に基づいて、マルチエージェント協調がトランザクションコストの真価ネットを付加するかどうかを決定する指標であるCoordination Breakeven Spread(CBS)を導入し、CPHを検証するための前提条件として最小評価基準を提案する。
関連論文リスト
- Reward Hacking as Equilibrium under Finite Evaluation [4.0834639890017295]
5つの最小公理の下では、最適化されたAIエージェントは、評価システムによってカバーされない品質の次元において、体系的に過小評価される。
この結果は、修正可能なバグではなく、構造平衡として報酬ハックを確立します。
我々は、部分的な形式分析により、エージェントが評価システム内のゲームから評価システム自体を積極的に劣化させる機能しきい値の存在を予想する。
論文 参考訳(メタデータ) (2026-03-30T06:06:40Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning [11.522192050185568]
大規模言語モデルは,「認知的幻覚」と「認知的崩壊」というシステム的失敗モードに悩まされる
実世界95の中国Aシェア年次レポートから構築したデータセットをベースとした,堅牢な評価フレームワークであるCognitive Complexity Benchmark(CCB)を紹介する。
本稿では,これらの障害に対処するための反復的デュアル・パース・ファイナンシャル・PoTフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T01:33:33Z) - Design and Evaluation of Cost-Aware PoQ for Decentralized LLM Inference [4.254924788681319]
本稿では,分散型大規模言語モデル (LLM) 推論のためのコストアウェアな品質証明 (PoQ) フレームワークを提案する。
この設計は、基底真理トークンレベルF1、軽量学習評価器、GPTに基づく判定を統一評価パイプライン内で組み合わせる。
モンテカルロの5000回以上のPoQラウンドのシミュレーションでは、コスト認識報酬スキームは高品質の低コスト推論モデルに常に高い平均報酬を割り当てることを示した。
論文 参考訳(メタデータ) (2025-12-18T08:57:17Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Structured Debate Improves Corporate Credit Reasoning in Financial AI [6.013710554725173]
本研究では,非財務的証拠から構造化推論を生成する2つの運用型大規模言語モデル(LLM)を開発し,評価する。
1つ目は、単一パス推論パイプラインを通じて双方向解析を生成する非アドリアル単エージェントシステム(NAS)である。
第2の方法は,10段階の構造的相互作用プロトコルによる対向検証を運用する,議論ベースのマルチエージェントシステム(KPD-MADS)である。
論文 参考訳(メタデータ) (2025-10-20T02:50:03Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。