論文の概要: When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies
- arxiv url: http://arxiv.org/abs/2604.10996v1
- Date: Mon, 13 Apr 2026 04:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.332208
- Title: When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies
- Title(参考訳): LLMの特徴とRL取引ポリシーの境界線
- Authors: Zhengzhe Yang,
- Abstract要約: 大規模言語モデル(LLM)は、強化学習(RL)トレーディングエージェントを改善するための連続的な数値的特徴を生成する。
我々は,凍結したLCMがステートレスな特徴抽出器として機能するモジュールパイプラインを構築し,非構造化日報を下流のPPOエージェントが消費する固定次元ベクトルに変換する。
本研究は,分散シフト下での転帰学習における課題と並行して,特徴レベルの妥当性と政策レベルの堅牢性とのギャップを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can large language models (LLMs) generate continuous numerical features that improve reinforcement learning (RL) trading agents? We build a modular pipeline where a frozen LLM serves as a stateless feature extractor, transforming unstructured daily news and filings into a fixed-dimensional vector consumed by a downstream PPO agent. We introduce an automated prompt-optimization loop that treats the extraction prompt as a discrete hyperparameter and tunes it directly against the Information Coefficient - the Spearman rank correlation between predicted and realized returns - rather than NLP losses. The optimized prompt discovers genuinely predictive features (IC above 0.15 on held-out data). However, these valid intermediate representations do not automatically translate into downstream task performance: during a distribution shift caused by a macroeconomic shock, LLM-derived features add noise, and the augmented agent under-performs a price-only baseline. In a calmer test regime the agent recovers, yet macroeconomic state variables remain the most robust driver of policy improvement. Our findings highlight a gap between feature-level validity and policy-level robustness that parallels known challenges in transfer learning under distribution shift.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強化学習(RL)トレーディングエージェントを改善するための連続的な数値的特徴を生成することができるか?
我々は,凍結したLCMがステートレスな特徴抽出器として機能するモジュールパイプラインを構築し,非構造化日報を下流のPPOエージェントが消費する固定次元ベクトルに変換する。
我々は,抽出プロンプトを離散的ハイパーパラメータとして扱う自動プロンプト最適化ループを導入し,NLP損失ではなく,予測と実現したリターンのスピアマンランク相関であるインフォメーション係数と直接対応させる。
最適化されたプロンプトは、真に予測可能な特徴(ホールドアウトデータで0.15以上)を発見する。
しかし、これらの有効な中間表現は、自動的に下流タスクのパフォーマンスに変換されない。マクロ経済ショックによる分散シフトの間、LLM由来の機能はノイズを付加し、拡張エージェントは価格のみのベースラインを下限に実行する。
より穏やかなテスト体制では、エージェントは回復するが、マクロ経済状態変数は政策改善の最も堅牢な要因である。
本研究は,分散シフト下での転帰学習における課題と並行して,特徴レベルの妥当性と政策レベルの堅牢性とのギャップを浮き彫りにしている。
関連論文リスト
- Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training [33.61029387987583]
政策ミラー降下(PMD)は強化学習のための原則的枠組みを提供する
PMD-mean(英語版)と呼ばれる実用的アルゴリズムについて検討し、サンプリングポリシーの下での対数分割項と平均報酬とを近似する。
数学推論タスクの実験により, PMD-meanは安定性と時間効率を向上し, 優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-05T17:44:28Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Offline Meta-Reinforcement Learning with Flow-Based Task Inference and Adaptive Correction of Feature Overgeneralization [12.107082786676907]
オフラインメタ強化学習(OMRL)は、オフラインRLにおける多様なデータセットからの学習の強みと、メタRLの新しいタスクへの適応性を組み合わせる。
既存の研究では、$Q$ネットワークの一般化がオフラインRLにおける外挿誤差に影響を与えることが示されている。
特徴分布をモデル化し,不確かさを推定することでOODサンプルを同定するFLORAを提案する。
論文 参考訳(メタデータ) (2026-01-12T03:16:07Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Diverse Transformer Decoding for Offline Reinforcement Learning Using Financial Algorithmic Approaches [4.364595470673757]
Portfolio Beam Search (PBS) はビームサーチ (BS) の簡便な代替手段である
我々は、推論時に逐次復号アルゴリズムに統合される不確実性を考慮した多様化機構を開発する。
D4RLベンチマークにおけるPBSの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-13T15:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。