論文の概要: Hindsight Preference Optimization for Financial Time Series Advisory
- arxiv url: http://arxiv.org/abs/2604.23988v1
- Date: Mon, 27 Apr 2026 03:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.712058
- Title: Hindsight Preference Optimization for Financial Time Series Advisory
- Title(参考訳): 金融時系列アドバイザリーにおける隠れた選好最適化
- Authors: Yanwei Cui, Guanghui Wang, Xing Zhang, Peiyang He, Ziyuan Li, Bing Zhu, Wei Qiu, Xusheng Wang, Zheng Yu, Anqi Xin,
- Abstract要約: このような予測的助言のための言語モデルのトレーニングは、根本的な課題に直面している。
私たちは2つのアイデアを強化学習からブリッジします -- 実行中に利用できない情報を使って、振り返りでトレーニング信号を生成し、優先順位調整を行います。
本研究では,S&P 500 エクイティ・タイム・シリーズにおけるビジョン・ランゲージ・モデルに基づく予測アドバイザリーに適用し,その精度とアドバイザリー・クオリティの両方において 4B モデルが 235B の教師より優れていたことを実証した。
- 参考スコア(独自算出の注目度): 11.548717863238066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series models predict numbers; decision-makers need advisory -- directional signals with reasoning, actionable suggestions, and risk management. Training language models for such predictive advisory faces a fundamental challenge: quality depends on outcomes unknown at prediction time. We bridge two ideas from reinforcement learning -- using information unavailable during execution to retrospectively generate training signal, and preference alignment -- and propose Hindsight Preference Optimization: observed outcomes let an LLM judge rank candidate advisories on dimensions that scalar metrics cannot capture, producing preference pairs for DPO without human annotation. We apply this to Vision-Language-Model-based predictive advisories on S&P 500 equity time series, demonstrated by a 4B model outperforming its 235B teacher on both accuracy and advisory quality.
- Abstract(参考訳): 時系列モデル, 意思決定者は, 予測数 -- 推論, 行動可能な提案, リスク管理を伴う方向的信号 -- が求められている。そのような予測的アドバイザリのためのトレーニング言語モデルは, 予測時に未知の結果に依存するという,根本的な課題に直面している。我々は, 強化学習からの2つのアイデアを橋渡しする -- 実行中に不可能な情報を用いて, トレーニング信号, 選好アライメントを生成する。そして, 隠れた選好最適化を提案する。
本研究では,S&P500 エクイティ・タイム・シリーズにおけるビジョン・ランゲージモデルに基づく予測アドバイザリーに適用し,その精度とアドバイザリー・クオリティの両方において 4B モデルが 235B の教師より優れていたことを実証した。
関連論文リスト
- What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF [67.48004037550064]
本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。
提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。
実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T04:22:53Z) - LLMs Can Teach Themselves to Better Predict the Future [1.0923877073891446]
本稿では,大規模言語モデルの予測能力を高める結果駆動型微調整フレームワークを提案する。
多様な推論軌跡と確率予測のペアを、多様な質問の集合に対して生成する。
次に、モデルを微調整する前に、これらの推論トレースのペアを実際の結果までの距離でランク付けする。
論文 参考訳(メタデータ) (2025-02-07T17:21:16Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Pre-trained Language Model and Knowledge Distillation for Lightweight Sequential Recommendation [51.25461871988366]
本稿では,事前学習言語モデルと知識蒸留に基づく逐次推薦アルゴリズムを提案する。
提案アルゴリズムは,推薦精度を高め,タイムリーな推薦サービスを提供する。
論文 参考訳(メタデータ) (2024-09-23T08:39:07Z) - Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究は,LLMの命令追従能力と批判的推論とのバランスを評価するための新しいフレームワークを提案する。
トレーニング後のアライメントモデルでは,無効なオプションの選択がデフォルトとなることが多いが,ベースモデルでは,モデルサイズに合わせてスケールするリファリング機能が改善されている。
さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
論文 参考訳(メタデータ) (2024-08-27T19:27:43Z) - Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning [67.82016092549284]
本稿では,選択型視覚言語システムの過剰保持を低減するための推論時アルゴリズムReCoVERRを紹介する。
ReCoVERRは、予測のための追加の証拠を提供する画像の中に、関連する手がかりを見つけようとする。
論文 参考訳(メタデータ) (2024-02-23T21:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。