論文の概要: Can Blindfolded LLMs Still Trade? An Anonymization-First Framework for Portfolio Optimization
- arxiv url: http://arxiv.org/abs/2603.17692v1
- Date: Wed, 18 Mar 2026 13:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.712534
- Title: Can Blindfolded LLMs Still Trade? An Anonymization-First Framework for Portfolio Optimization
- Title(参考訳): Blindfolded LLMsはまだ取引できるのか? Portfolio最適化のための匿名化ファーストフレームワーク
- Authors: Joohyoung Jeon, Hongchul Lee,
- Abstract要約: LLMのトレーディングエージェントは、記憶されたティッカー・アソシエーションの活用よりも、市場のダイナミクスの理解を実証しなければならない。
我々は,チッカー固有の事前トレーニングによる記憶バイアスと,欠陥のあるバックテストによる生存バイアスの2つの源泉に対処する。
我々のアプローチは、エージェントを盲目化し、すべての識別子を匿名化し、意味のあるシグナルが持続するかどうかを検証することである。
- 参考スコア(独自算出の注目度): 1.0957528713294875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For LLM trading agents to be genuinely trustworthy, they must demonstrate understanding of market dynamics rather than exploitation of memorized ticker associations. Building responsible multi-agent systems demands rigorous signal validation: proving that predictions reflect legitimate patterns, not pre-trained recall. We address two sources of spurious performance: memorization bias from ticker-specific pre-training, and survivorship bias from flawed backtesting. Our approach is to blindfold the agents--anonymizing all identifiers--and verify whether meaningful signals persist. BlindTrade anonymizes tickers and company names, and four LLM agents output scores along with reasoning. We construct a GNN graph from reasoning embeddings and trade using PPO-DSR policy. On 2025 YTD (through 2025-08-01), we achieved Sharpe 1.40 +/- 0.22 across 20 seeds and validated signal legitimacy through negative control experiments. To assess robustness beyond a single OOS window, we additionally evaluate an extended period (2024--2025), revealing market-regime dependency: the policy excels in volatile conditions but shows reduced alpha in trending bull markets.
- Abstract(参考訳): LLMのトレーディングエージェントが真に信頼できるためには、記憶されたティッカー・アソシエーションの活用よりも市場ダイナミクスの理解を実証する必要がある。
責任あるマルチエージェントシステムを構築するには、厳密な信号検証が必要である。
我々は,ティッカー固有の事前トレーニングによる記憶バイアスと,欠陥のあるバックテストによる生存バイアスという,突発的なパフォーマンスの2つの要因に対処する。
我々のアプローチは、エージェントを盲目化し、すべての識別子を匿名化し、意味のあるシグナルが持続するかどうかを検証することである。
BlindTradeはティッカーと会社名を匿名化し、4人のLCMエージェントが推論とともにスコアを出力する。
我々は、PPO-DSRポリシーを用いて、埋め込みと取引の推論からGNNグラフを構築する。
2025 YTD (2025-08-01) では, シャープ1.40+/-0.22を20種で達成し, 負の制御実験により信号の正当性を検証した。
一つのOOSウインドウを超えてロバスト性を評価するため,我々はさらに長期(2024年-2025年)の評価を行い,変動条件が優れているが,トレンドとなっているブルマーケットではアルファが減少していることを明らかにした。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Interpretable Hypothesis-Driven Trading:A Rigorous Walk-Forward Validation Framework for Market Microstructure Signals [0.0]
我々は,アルゴリズム取引のためのウォークフォワード・バリデーション・フレームワークを開発した。
我々の手法は、解釈可能な仮説駆動信号生成と強化学習と厳密なサンプル外テストを組み合わせる。
このフレームワークは厳密な情報セットの規律を強制し、34の独立したテスト期間にわたるロールウインドウ検証を採用し、自然言語の仮説による完全な解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-12-15T02:20:42Z) - Inferring Latent Market Forces: Evaluating LLM Detection of Gamma Exposure Patterns via Obfuscation Testing [0.0937899315060426]
S&P500のオプションデータのうち、242日間(95.6%)で3つのディーラーが制約パターンをテストしている。
LLMは、生のガンマ露光値のみを提供するアンバイアスドプロンプトを用いて、71.5%の検知率を達成する。
論文 参考訳(メタデータ) (2025-12-08T15:48:57Z) - Bayesian Modeling for Uncertainty Management in Financial Risk Forecasting and Compliance [0.0]
我々は,市場ボラティリティ予測,不正検出,コンプライアンス監視におけるリスクの取り扱いを継続的に促進する統合的アプローチを開発する。
我々は,2000年から2019年までのトレーニング期間,2020年から2024年までのアウト・オブ・サンプルテスト期間を用いて,毎日のS&P500リターンにおける95%バリュー・アット・リスク(VaR)予測の性能を評価した。
提案した割引係数DLMモデルは,クラスタ化違反の証拠とともに,わずかにリベラルなVaR推定を導出する。
論文 参考訳(メタデータ) (2025-12-06T23:00:19Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。