論文の概要: ValueBlindBench: Agreement-Gated Stress Testing of LLM-Judged Investment Rationales Before Returns Are Observable
- arxiv url: http://arxiv.org/abs/2604.25224v2
- Date: Sun, 03 May 2026 14:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:06.895931
- Title: ValueBlindBench: Agreement-Gated Stress Testing of LLM-Judged Investment Rationales Before Returns Are Observable
- Title(参考訳): ValueBlindBench: LLM予算投資基準の合意付きストレステストでリターンが観測可能
- Authors: Sidi Chang, Peiying Zhu, Yuxiao Chen,
- Abstract要約: 本稿では,事前登録された合意付きストレステストプロトコルであるValueBlindBenchを紹介する。
ValueBlindBench は LLM-judged Investment-rationale のクレームがパブリッシュ可能、資格あり、無効かを決定する。
- 参考スコア(独自算出の注目度): 1.8689252029357564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based financial agents increasingly produce investment rationales before the outcomes needed to evaluate them are observable. This creates a delayed-ground-truth evaluation problem: realized returns remain the eventual arbiter of investment quality, but they arrive too late and are too noisy to guide many model-development and governance decisions. LLM judges offer a tempting shortcut for pre-deployment evaluation of AI-finance systems, but unvalidated judges may reward verbosity, confidence, or rubric mimicry rather than financial judgment. This paper introduces ValueBlindBench, a preregistered agreement-gated stress-test protocol for deciding when LLM-judged investment-rationale claims are publishable, qualified, or invalid. In a controlled market-state capital-allocation prototype with 1,000 honest decision cycles and 100 preregistered adversarial controls (1,100 trajectories, 5,500 judge calls), ValueBlindBench clears the aggregate agreement gate at \(\barκ_w = 0.7168\) but prevents several overclaims. Lower-rank systems collapse into a tie-class, one rubric dimension fails the per-dimension gate (\texttt{constraint\_awareness}, \(\barκ_w = 0.2022\)), single-judge rankings are family-dependent, and terse-correct rationales receive a \(Δ= -2.81\) rubric-point penalty relative to honest rationales. A targeted anchor-specificity probe further shows that financial constructs such as constraint awareness are operationally load-bearing. The scientific object is therefore not a leaderboard and not a claim to measure true investment skill. ValueBlindBench is a pre-calibration metrology layer for AI-finance evaluation: it governs whether a proposed LLM-judge-based investment-rationale claim is stable enough, agreed enough, and uncontaminated enough to be reported at all.
- Abstract(参考訳): LLMベースの金融エージェントは、それらを評価するのに必要な結果が観察可能である前に、投資の合理性をますます生み出す。
現実のリターンは投資品質の最終的なアービターのままだが、遅すぎるため、多くのモデル開発とガバナンスの決定を導くにはノイズが多すぎる。
LLMの審査員は、AIファイナンスシステムの事前デプロイ評価の誘惑的なショートカットを提供するが、不正な審査員は、金銭的な判断よりも冗長性、自信、または滑稽な模倣に報いる可能性がある。
本稿では, LLM-judged Investment-rationale クレームが発行可能か, 適格か, 無効かを決定するための, 事前登録された合意付きストレステストプロトコルである ValueBlindBench を紹介する。
1000の誠実な意思決定サイクルと100の事前登録された反対制御(1,100のトラジェクトリ、5,500の審査コール)を持つ市場資本配分のプロトタイプにおいて、ValueBlindBenchは、集合的な合意ゲートを \(\barκ_w = 0.7168\) でクリアするが、いくつかの過大評価を防ぐ。
下位階の系はタイクラスに崩壊し、1つのルーブリック次元は次元ごとのゲート(\texttt{constraint\_awareness}, \(\barκ_w = 0.2022\))に失敗し、単一のジャッジランクは家族依存であり、簡潔な正理性は真理性に対して \(Δ= -2.81\)ルーブリックポイントペナルティを受ける。
ターゲットとなるアンカー特異性調査では、制約認識などの財務構造が運用的に負荷を負担していることも示している。
したがって、科学的対象はリーダーボードではなく、真の投資スキルを測るクレームではない。
ValueBlindBenchはAIファイナンス評価のための事前校正ミートロジーレイヤである。
関連論文リスト
- LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - SCOPE: Selective Conformal Optimized Pairwise LLM Judging [16.73004625486562]
大規模言語モデル (LLMs) は、コストのかかる人間の選好ラベルをペア評価で置き換えるために、裁判官としてますます使われている。
実用性にも拘わらず、LLMの審査員は、誤校正や体系的な偏見に悩まされる傾向にある。
本稿では,有限サンプル統計保証から選択的に判断するフレームワークであるSCOPEを提案する。
論文 参考訳(メタデータ) (2026-02-13T17:10:43Z) - AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models [23.493646150407116]
リアルタイム取引性能の現在の評価は、重大な障害モードを見落としている:不確実性の下でのシーケンシャルな意思決定における厳しい行動不安定性である。
提案するAlphaForgeBenchは,大規模言語モデル(LLM)を,実行エージェントではなく定量的研究者として再構成する,原則化されたフレームワークである。
論文 参考訳(メタデータ) (2026-02-10T14:29:33Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits [0.5586191108738564]
本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
論文 参考訳(メタデータ) (2025-10-06T15:52:12Z) - Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models [63.559461750135334]
言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。
回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
論文 参考訳(メタデータ) (2025-03-03T09:16:26Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Chat Bankman-Fried: an Exploration of LLM Alignment in Finance [4.892013668424246]
司法管轄区域はAIの安全性に関する法律を制定するので、アライメントの概念を定義して測定する必要がある。
本稿では,大規模言語モデル(LLM)が比較的未探索の財務状況において,倫理的・法的基準に準拠するか否かを評価するための実験的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-01T08:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。