論文の概要: What Teaches Robots to Walk, Teaches Them to Trade too -- Regime Adaptive Execution using Informed Data and LLMs
- arxiv url: http://arxiv.org/abs/2406.15508v1
- Date: Thu, 20 Jun 2024 00:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:44:36.292956
- Title: What Teaches Robots to Walk, Teaches Them to Trade too -- Regime Adaptive Execution using Informed Data and LLMs
- Title(参考訳): ロボットが歩くもの、貿易するものも―インフォームドデータとLLMを用いたレジーム適応実行
- Authors: Raeid Saqur,
- Abstract要約: 我々は、事前学習されたLLM(いわゆる「プライベート情報」)の世界知識を活用し、本質的な自然市場報酬を用いて動的に適応する革新的なアプローチを導入する。
その結果,金融市場の体制変化に適応する上で,本手法の有効性が実証された。
提案したアルゴリズムフレームワークは,既存の (FLARE) ベンチマークのストックモーメント (SM) タスクにおいて,最高の性能のSOTA LLMモデルよりも15%以上の精度向上を実現している。
- 参考スコア(独自算出の注目度): 1.6317061277457001
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning techniques applied to the problem of financial market forecasting struggle with dynamic regime switching, or underlying correlation and covariance shifts in true (hidden) market variables. Drawing inspiration from the success of reinforcement learning in robotics, particularly in agile locomotion adaptation of quadruped robots to unseen terrains, we introduce an innovative approach that leverages world knowledge of pretrained LLMs (aka. 'privileged information' in robotics) and dynamically adapts them using intrinsic, natural market rewards using LLM alignment technique we dub as "Reinforcement Learning from Market Feedback" (**RLMF**). Strong empirical results demonstrate the efficacy of our method in adapting to regime shifts in financial markets, a challenge that has long plagued predictive models in this domain. The proposed algorithmic framework outperforms best-performing SOTA LLM models on the existing (FLARE) benchmark stock-movement (SM) tasks by more than 15\% improved accuracy. On the recently proposed NIFTY SM task, our adaptive policy outperforms the SOTA best performing trillion parameter models like GPT-4. The paper details the dual-phase, teacher-student architecture and implementation of our model, the empirical results obtained, and an analysis of the role of language embeddings in terms of Information Gain.
- Abstract(参考訳): 機械学習技術は金融市場の予測問題に応用され、ダイナミックなレシエーションの切り替えや、真の(隠れた)市場変数の相関や共分散の変化に苦しむ。
ロボット工学における強化学習の成功,特に四足歩行ロボットの未確認地形へのアジャイルなロコモーション適応からインスピレーションを得て,事前学習されたLLMの世界の知識を活用し,LLMアライメント技術(*RLMF**)を用いた本質的な自然市場報酬を動的に適用する革新的なアプローチを導入する。
強烈な実証実験の結果,金融市場の体制転換に適応する上で,我々の手法の有効性が示された。
提案したアルゴリズムフレームワークは、既存の(FLARE)ベンチマークストックモーメント(SM)タスクにおいて、最高のパフォーマンスのSOTA LLMモデルよりも15倍以上の精度向上を実現している。
最近提案されたNIFTY SMタスクでは、適応ポリシーはGPT-4のような1兆のパラメータモデルで表されるSOTAよりも優れている。
本稿では,2相・教師・学生のアーキテクチャとモデルの実装,経験的結果,および情報ゲインの観点からの言語埋め込みの役割の分析について述べる。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Improve LLM-as-a-Judge Ability as a General Ability [40.2210529561692]
大規模言語モデル(LLM)は様々なシナリオで応答を評価し、正確な選好信号を提供する。
近年の研究では、LLMをジェネレーティブ・ジャッジ(ジェネレーティブ・ジャッジ)として訓練する多くの方法が提起されているが、そのほとんどはデータ消費か精度の欠如である。
本研究では、教師付き微調整(SFT)ウォームアップと直接選好最適化(DPO)強化を含む2段階の訓練手法を実装した。
論文 参考訳(メタデータ) (2025-02-17T11:28:43Z) - Reinforcement-Learning Portfolio Allocation with Dynamic Embedding of Market Information [12.032301674764552]
我々は,高次元,非定常,低信号の市場情報から生じる課題に対処するために,ディープラーニング技術を活用したポートフォリオアロケーションフレームワークを開発した。
我々は、生成的オートエンコーダとオンラインメタラーニングを統合し、市場情報を動的に埋め込む強化学習フレームワークを設計する。
米国株上位500銘柄に基づく実証分析は、当社のフレームワークが共通のポートフォリオベンチマークを上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-29T20:56:59Z) - Exploratory Mean-Variance Portfolio Optimization with Regime-Switching Market Dynamics [3.6149777601911097]
本研究では,規制空間内における情報探索を支援するために,制度変更市場設定と強化学習技術の適用について検討する。
実際の市場データ調査では、OC学習を伴うEMVRSは、年次ポートフォリオリターンの最も平均的で合理的に低いボラティリティで、それを上回るパフォーマンスを保っている。
論文 参考訳(メタデータ) (2025-01-28T02:48:41Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
最適化モデルのための半自動データ合成フレームワークOR-Instructを紹介する。
また,実用的なOR問題を解く上で,LLMを評価するための最初の産業ベンチマークであるIndustrialORを紹介した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。
我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z) - Reinforced Deep Markov Models With Applications in Automatic Trading [0.0]
我々はReinforced Deep Markov Model(RDMM)というモデルに基づくRLアプローチを提案する。
RDMMは自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合する。
テストの結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、金銭的利益が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-09T12:46:30Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。