論文の概要: Trade-R1: Bridging Verifiable Rewards to Stochastic Environments via Process-Level Reasoning Verification
- arxiv url: http://arxiv.org/abs/2601.03948v2
- Date: Thu, 08 Jan 2026 02:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 13:05:36.790631
- Title: Trade-R1: Bridging Verifiable Rewards to Stochastic Environments via Process-Level Reasoning Verification
- Title(参考訳): Trade-R1:プロセスレベル推論検証による確率的環境へのブリッジ可能なリワード
- Authors: Rui Sun, Yifan Sun, Sheng Xu, Li Zhao, Jing Li, Daxin Jiang, Cheng Hua, Zuo Bai,
- Abstract要約: モデルトレーニングフレームワークであるTrade-R1は、プロセスレベルの推論検証を通じて、検証可能な報酬を環境にブリッジする。
我々は、得られた証拠、推論連鎖、および決定の間のペアワイズアライメントを評価するために、三角形の整合性指標を構築する。
国別資産選択の実験は、我々のパラダイムが報酬ハッキングを減らすことを実証している。
- 参考スコア(独自算出の注目度): 35.41216970580546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has enabled Large Language Models (LLMs) to achieve remarkable reasoning in domains like mathematics and coding, where verifiable rewards provide clear signals. However, extending this paradigm to financial decision is challenged by the market's stochastic nature: rewards are verifiable but inherently noisy, causing standard RL to degenerate into reward hacking. To address this, we propose Trade-R1, a model training framework that bridges verifiable rewards to stochastic environments via process-level reasoning verification. Our key innovation is a verification method that transforms the problem of evaluating reasoning over lengthy financial documents into a structured Retrieval-Augmented Generation (RAG) task. We construct a triangular consistency metric, assessing pairwise alignment between retrieved evidence, reasoning chains, and decisions to serve as a validity filter for noisy market returns. We explore two reward integration strategies: Fixed-effect Semantic Reward (FSR) for stable alignment signals, and Dynamic-effect Semantic Reward (DSR) for coupled magnitude optimization. Experiments on different country asset selection demonstrate that our paradigm reduces reward hacking, with DSR achieving superior cross-market generalization while maintaining the highest reasoning consistency.
- Abstract(参考訳): 強化学習(RL)により、数学やコーディングといった分野において、検証可能な報酬が明確な信号を提供する、大きな言語モデル(LLM)が顕著な推論を達成できるようになった。
しかし、このパラダイムを金融決定に拡張することは、市場の確率的な性質によって挑戦される:報酬は検証可能であるが本質的にノイズが多く、標準のRLは報酬ハッキングへと退避する。
そこで本稿では,プロセスレベルの推論検証を通じて,検証可能な報酬を確率的環境にブリッジするモデルトレーニングフレームワークであるTrade-R1を提案する。
我々のキーとなる革新は、長期の財務文書に対する推論を構造化された検索・拡張生成(RAG)タスクに変換する検証手法である。
我々は、検索された証拠、推論チェーン、およびノイズの多い市場リターンの妥当性フィルタとして機能する決定間のペアワイズアライメントを評価するために、三角形の整合性指標を構築した。
安定なアライメント信号に対する固定効果セマンティック・リワード(FSR)と、結合等級最適化のための動的効果セマンティック・リワード(DSR)の2つの報奨積分戦略を検討する。
国によって異なる資産選択実験により,DSRは高い推論一貫性を維持しつつ,市場横断の一般化を達成し,我々のパラダイムが報酬ハッキングを減らすことが実証された。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。
ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。
本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks [6.881699020319577]
大規模言語モデル(LLM)を微調整するための強化学習フレームワークであるダイレクト推論最適化(DRO)を提案する。
DROは新たな報酬信号、Reasoning Reflection Reward (R3)によって誘導される。
DROは、オープンエンドドメインと構造化ドメインの両方にわたって広く適用されながら、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-16T10:43:38Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。