論文の概要: Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using LLM Judges with Closed-Loop Reinforcement Learning Feedback
- arxiv url: http://arxiv.org/abs/2605.05739v1
- Date: Thu, 07 May 2026 06:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.565197
- Title: Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using LLM Judges with Closed-Loop Reinforcement Learning Feedback
- Title(参考訳): 閉ループ強化学習フィードバックを用いたLLM判定器を用いたエージェントストック予測システムの多次元挙動評価
- Authors: Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman,
- Abstract要約: エージェントストック予測システムは、個々の品質が集約メトリクスによって隠された相互依存的な決定のシーケンスを作成する。
このギャップに対処する行動評価フレームワークを提案する。
検証期間に限られる3つの短い微調整サイクルは、2017-2025年の試験期間中に1日間のMAPEを0.61%から0.54%に減らした。
- 参考スコア(独自算出の注目度): 1.2362187555287152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic stock prediction systems make sequences of interdependent decisions (regime detection, pathway routing, reinforcement learning control) whose individual quality is hidden by aggregate metrics such as mean absolute percentage error (MAPE) or directional accuracy. We present a behavioral evaluation framework that addresses this gap. Behavioral traces logged at every autonomous decision point are grouped into five-day episodes and scored along six domain-specific dimensions (regime detection, routing, adaptation, risk calibration, strategy coherence, error recovery) by an ensemble of three large language model (LLM) judges (GPT 5.4, Claude 4.6 Opus, Gemini 3.1 Pro). Perturbation-based validation on 420 episodes yields targeted score drops of $-1.6$ to $-2.4$ on intended dimensions versus an average of $-0.32$ on the remaining five, with cross-model agreement up to Krippendorff's $α= 0.85$. The composite behavioral score, used here only for cross-episode reporting, correlates at $ρ= 0.72$ with realized 20-day Sharpe ratio from offline backtesting. Closing the loop, the framework converts deficient per-dimension scores into a credit-assigned penalty term added to the Soft Actor-Critic (SAC) reward. Three short fine-tuning cycles, all confined to the validation period, produce on the held-out 2017-2025 test period a one-day MAPE reduction from 0.61% to 0.54% (an 11.5% relative reduction; $p<0.001$, Cohen's $d=0.31$), a directional accuracy increase from 71% to 74%, and an 18% Sharpe ratio improvement (95% bootstrap CI [8.2%, 27.4%]), with gains concentrated in high-volatility episodes where the original system was most behaviorally deficient. Results are from offline backtesting and do not address effects specific to live deployment.
- Abstract(参考訳): エージェントストック予測システムは、平均絶対パーセンテージ誤差(MAPE)や方向精度などの集計指標によって個々の品質が隠された相互依存決定(登録検出、経路ルーティング、強化学習制御)のシーケンスを作成する。
このギャップに対処する行動評価フレームワークを提案する。
自律的な決定ポイント毎に記録された行動トレースは、5日間のエピソードにグループ化され、3つの大きな言語モデル(LLM)の判断(GPT 5.4、Claude 4.6 Opus、Gemini 3.1 Pro)のアンサンブルによって、ドメイン固有の次元(登録検出、ルーティング、適応、リスクキャリブレーション、戦略コヒーレンス、エラー回復)に沿ってスコアされる。
420話の摂動に基づく検証では、目標スコアが-1.6$から$-2.4$となり、残りの5話では平均で-0.32$となり、クリッペンドルフの0.85$までのクロスモデル契約が結ばれた。
ここで用いられる複合振舞いスコアは、オフラインのバックテストから20日間のシャープ比で、ρ=0.72$と相関する。
ループを閉じると、このフレームワークは欠陥のある1次元当たりのスコアを、Soft Actor-Critic(SAC)報酬に付加されたクレジット指定のペナルティ用語に変換する。
検証期間に制限された3つの短い微調整サイクルは、2017-2025テスト期間に1日間のMAPEの減少率を0.61%から0.54%(相対還元率11.5%、コーエンの$d=0.31$)、方向精度を71%から74%に引き上げた。
結果はオフラインのバックテストによるものであり、ライブデプロイメントに特有の影響には対処しない。
関連論文リスト
- AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking [13.891522069967507]
本稿では,エージェント実行を指向非巡回グラフ(DAG)として形式化するフレームワークであるAgentEvalを提案する。
AgentEvalは、エンドツーエンドの評価よりも2.17倍高いエラー検出リコールを実現し、72%の根本原因精度を81%の天井に対して達成している。
論文 参考訳(メタデータ) (2026-04-26T07:38:47Z) - ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis [0.6372261626436676]
ContraPromptは、モデルが失敗してもフィードバックで再試行を成功させる場合、その差が最適化信号を構成するという観測に基づいて構築される。
従来のコントラスト法とは異なり、完全な中間的推論過程を比較する。
ContraPromptは11日にGEPAを41で破り、同じ予算で1で敗れた。
論文 参考訳(メタデータ) (2026-04-20T08:17:15Z) - Evaluating Model-Free Policy Optimization in Masked-Action Environments via an Exact Blackjack Oracle [0.40611352512781873]
正確な動的プログラミング(DP)のオラクルは4600以上の標準決定セルから導出された。
この実験では、地上信頼行動値、最適ポリシーラベル、理論期待値(EV)が1人あたり0.00161である。
いずれの方法も重大な細胞条件の後悔を示し、ポリシーレベルのエラーを持続的に示していた。
論文 参考訳(メタデータ) (2026-03-19T09:08:59Z) - AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。
厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-03-03T04:59:25Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - End-to-End Semi-Supervised Object Detection with Soft Teacher [63.26266730447914]
本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。
提案手法は, 種々のラベル付け比において, 従来手法よりも大きなマージンで性能を向上する。
最先端のSwin Transformerベースの物体検出器では、検出精度を+1.5 mAPで大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。