論文の概要: What Teaches Robots to Walk, Teaches Them to Trade too -- Regime Adaptive Execution using Informed Data and LLMs
- arxiv url: http://arxiv.org/abs/2406.15508v1
- Date: Thu, 20 Jun 2024 00:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:44:36.292956
- Title: What Teaches Robots to Walk, Teaches Them to Trade too -- Regime Adaptive Execution using Informed Data and LLMs
- Title(参考訳): ロボットが歩くもの、貿易するものも―インフォームドデータとLLMを用いたレジーム適応実行
- Authors: Raeid Saqur,
- Abstract要約: 我々は、事前学習されたLLM(いわゆる「プライベート情報」)の世界知識を活用し、本質的な自然市場報酬を用いて動的に適応する革新的なアプローチを導入する。
その結果,金融市場の体制変化に適応する上で,本手法の有効性が実証された。
提案したアルゴリズムフレームワークは,既存の (FLARE) ベンチマークのストックモーメント (SM) タスクにおいて,最高の性能のSOTA LLMモデルよりも15%以上の精度向上を実現している。
- 参考スコア(独自算出の注目度): 1.6317061277457001
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning techniques applied to the problem of financial market forecasting struggle with dynamic regime switching, or underlying correlation and covariance shifts in true (hidden) market variables. Drawing inspiration from the success of reinforcement learning in robotics, particularly in agile locomotion adaptation of quadruped robots to unseen terrains, we introduce an innovative approach that leverages world knowledge of pretrained LLMs (aka. 'privileged information' in robotics) and dynamically adapts them using intrinsic, natural market rewards using LLM alignment technique we dub as "Reinforcement Learning from Market Feedback" (**RLMF**). Strong empirical results demonstrate the efficacy of our method in adapting to regime shifts in financial markets, a challenge that has long plagued predictive models in this domain. The proposed algorithmic framework outperforms best-performing SOTA LLM models on the existing (FLARE) benchmark stock-movement (SM) tasks by more than 15\% improved accuracy. On the recently proposed NIFTY SM task, our adaptive policy outperforms the SOTA best performing trillion parameter models like GPT-4. The paper details the dual-phase, teacher-student architecture and implementation of our model, the empirical results obtained, and an analysis of the role of language embeddings in terms of Information Gain.
- Abstract(参考訳): 機械学習技術は金融市場の予測問題に応用され、ダイナミックなレシエーションの切り替えや、真の(隠れた)市場変数の相関や共分散の変化に苦しむ。
ロボット工学における強化学習の成功,特に四足歩行ロボットの未確認地形へのアジャイルなロコモーション適応からインスピレーションを得て,事前学習されたLLMの世界の知識を活用し,LLMアライメント技術(*RLMF**)を用いた本質的な自然市場報酬を動的に適用する革新的なアプローチを導入する。
強烈な実証実験の結果,金融市場の体制転換に適応する上で,我々の手法の有効性が示された。
提案したアルゴリズムフレームワークは、既存の(FLARE)ベンチマークストックモーメント(SM)タスクにおいて、最高のパフォーマンスのSOTA LLMモデルよりも15倍以上の精度向上を実現している。
最近提案されたNIFTY SMタスクでは、適応ポリシーはGPT-4のような1兆のパラメータモデルで表されるSOTAよりも優れている。
本稿では,2相・教師・学生のアーキテクチャとモデルの実装,経験的結果,および情報ゲインの観点からの言語埋め込みの役割の分析について述べる。
関連論文リスト
- Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。
提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。
DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文 参考訳(メタデータ) (2024-10-17T23:13:32Z) - Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning [10.186029242664931]
我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
論文 参考訳(メタデータ) (2024-06-05T03:11:44Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。
我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z) - What do LLMs Know about Financial Markets? A Case Study on Reddit Market
Sentiment Analysis [15.195505464654493]
ソーシャルメディアコンテンツに対する市場の感情分析には、金融市場とソーシャルメディアのジャーゴンの両方の知識が必要である。
我々のパイプラインは、大きな言語モデル(LLM)を用いたReddit投稿の弱い財務感情ラベルを生成する。
少数のプロンプトだけで、最終モデルは既存の教師付きモデルと同等に実行される。
論文 参考訳(メタデータ) (2022-12-21T19:11:19Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Reinforced Deep Markov Models With Applications in Automatic Trading [0.0]
我々はReinforced Deep Markov Model(RDMM)というモデルに基づくRLアプローチを提案する。
RDMMは自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合する。
テストの結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、金銭的利益が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-09T12:46:30Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。