Fugu-MT 論文翻訳(概要): Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback

論文の概要: Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback

arxiv url: http://arxiv.org/abs/2605.05739v2
Date: Wed, 13 May 2026 05:25:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 17:13:58.765916
Title: Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback
Title（参考訳）: 閉ループ強化学習フィードバックを用いた大規模言語モデル判断器を用いたエージェントストック予測システムの多次元行動評価
Authors: Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman,
Abstract要約: ファイナンスにおける予測評価は、ポイント予測エラーに基づく集計精度測定と予測精度テストに依存している。本稿では,中間決定プロセス自体を評価することによって,精度試験を補完する行動予測評価手法を提案する。
参考スコア（独自算出の注目度）: 1.2362187555287152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Forecast evaluation in finance has relied on aggregate accuracy metrics and predictive-accuracy tests built on point-forecast errors. These instruments evaluate forecast outputs but cannot evaluate the process of forecast generation, which is increasingly relevant as forecasting systems become agentic, issuing forecasts through sequences of interdependent autonomous decisions whose individual quality is hidden by output-level errors. We propose a behavioral forecast-evaluation methodology that complements accuracy tests by assessing the intermediate decision process itself. Behavioral traces logged at every autonomous decision point are grouped into five-day episodes and scored along six domain-specific dimensions (regime detection, routing, adaptation, risk calibration, strategy coherence, error recovery) by an ensemble of three large language model (LLM) judges. A perturbation procedure that corrupts one dimension while leaving the other five intact confirms dimension specificity, with cross-model agreement reaching Krippendorff's $α= 0.85$. The composite behavioral score correlates at Spearman $ρ= 0.72$ with realized 20-day Sharpe ratio from offline backtesting. Closing the loop, the framework converts deficient per-dimension scores into a credit-assigned penalty added to the Soft Actor-Critic reward. Three fine-tuning cycles, confined to the validation period, produce on the held-out 2017-2025 test period a one-day MAPE reduction from 0.61% to 0.54% (11.5% relative; $p<0.001$, Cohen's $d=0.31$), significant under a Diebold-Mariano test of equal predictive accuracy ($\mathrm{DM}=-7.83$) and localized by a Giacomini-White conditional predictive ability test to the high-volatility regime. The methodology is application-agnostic. Results are from offline backtesting and do not address effects specific to live deployment.
Abstract（参考訳）: ファイナンスにおける予測評価は、ポイント予測エラーに基づく集計精度測定と予測精度テストに依存している。これらの機器は、予測出力を評価するが、予測システムがエージェントとなるにつれて、予測生成のプロセスを評価することは不可能であり、個々の品質が出力レベルのエラーによって隠蔽されている独立した自律的意思決定のシーケンスを通じて予測を発行する。本稿では,中間決定プロセス自体を評価することによって,精度試験を補完する行動予測評価手法を提案する。自律的な決定ポイント毎に記録された行動トレースは、5日間のエピソードにグループ化され、3つの大きな言語モデル(LLM)判断のアンサンブルによって6つのドメイン固有次元(登録検出、ルーティング、適応、リスクキャリブレーション、戦略コヒーレンス、エラー回復)に沿ってスコアされる。他の5つをそのまま残しながら1次元を歪ませる摂動手順は、クリッペンドルフの$α= 0.85$に達するクロスモデル合意によって、次元特異性を確認する。複合行動スコアはSpearman $ρ= 0.72$で相関し、オフラインバックテストから20日間のシャープ比を実現した。ループを閉じると、このフレームワークは欠陥のある1次元当たりのスコアを、ソフト・アクター・クライブの報酬に加えられたクレジット指定のペナルティに変換する。検証期間に制限された3つの微調整サイクルは、2017-2025年の1日間のMAPEの減少率を0.61%から0.54% (11.5%)、コーエンの$d=0.31$、Diebold-Marianoテストで同等の予測精度(\mathrm{DM}=-7.83$)、Giacomini-White条件付き予測能力テストで高ボラティリティ体制にローカライズした。方法論はアプリケーションに依存しない。結果はオフラインのバックテストによるものであり、ライブデプロイメントに特有の影響には対処しない。

関連論文リスト

AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking [13.891522069967507]
本稿では,エージェント実行を指向非巡回グラフ(DAG)として形式化するフレームワークであるAgentEvalを提案する。 AgentEvalは、エンドツーエンドの評価よりも2.17倍高いエラー検出リコールを実現し、72%の根本原因精度を81%の天井に対して達成している。
論文参考訳（メタデータ） (2026-04-26T07:38:47Z)
ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis [0.6372261626436676]
ContraPromptは、モデルが失敗してもフィードバックで再試行を成功させる場合、その差が最適化信号を構成するという観測に基づいて構築される。従来のコントラスト法とは異なり、完全な中間的推論過程を比較する。 ContraPromptは11日にGEPAを41で破り、同じ予算で1で敗れた。
論文参考訳（メタデータ） (2026-04-20T08:17:15Z)
Evaluating Model-Free Policy Optimization in Masked-Action Environments via an Exact Blackjack Oracle [0.40611352512781873]
正確な動的プログラミング(DP)のオラクルは4600以上の標準決定セルから導出された。この実験では、地上信頼行動値、最適ポリシーラベル、理論期待値(EV)が1人あたり0.00161である。いずれの方法も重大な細胞条件の後悔を示し、ポリシーレベルのエラーを持続的に示していた。
論文参考訳（メタデータ） (2026-03-19T09:08:59Z)
AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文参考訳（メタデータ） (2026-03-03T04:59:25Z)
ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。 ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文参考訳（メタデータ） (2026-02-06T23:27:17Z)
CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。 CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文参考訳（メタデータ） (2025-12-22T16:34:21Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。 ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文参考訳（メタデータ） (2025-12-01T09:44:31Z)
End-to-End Semi-Supervised Object Detection with Soft Teacher [63.26266730447914]
本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。提案手法は, 種々のラベル付け比において, 従来手法よりも大きなマージンで性能を向上する。最先端のSwin Transformerベースの物体検出器では、検出精度を+1.5 mAPで大幅に向上させることができる。
論文参考訳（メタデータ） (2021-06-16T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。