論文の概要: Moira: Language-driven Hierarchical Reinforcement Learning for Pair Trading
- arxiv url: http://arxiv.org/abs/2605.01954v1
- Date: Sun, 03 May 2026 16:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.014778
- Title: Moira: Language-driven Hierarchical Reinforcement Learning for Pair Trading
- Title(参考訳): Moira: ペアトレーディングのための言語駆動型階層的強化学習
- Authors: Polydoros Giannouris, Yuechen Jiang, Lingfei Qian, Yuyan Wang, Xueqing Peng, Jimin Huang, Guojun Xiong, Sophia Ananiadou,
- Abstract要約: 多くのシーケンシャルな意思決定問題は階層構造を示し、ハイレベルなセマンティックな選択は下流の動作を制限し、フィードバックは遅延し曖昧である。
この課題は、資産対選択のための長期水平意味推論と、部分的可観測性の下での短期水平実行を自然に組み合わせたドメインであるペアトレーディングを通じて研究する。
階層的強化学習問題としてペアトレーディングを定式化し,高レベルかつ低レベルのポリシを大言語モデル(LLM)でパラメータ化し,即時更新によってのみ最適化する言語駆動型最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.923407379006626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many sequential decision-making problems exhibit hierarchical structure, where high-level semantic choices constrain downstream actions and feedback is delayed and ambiguous. Learning in such settings is challenging due to credit assignment: performance degradation may arise from flawed abstractions, suboptimal execution, or their interaction. We study this challenge through pair trading, a domain that naturally combines long-horizon semantic reasoning for asset pair selection with short-horizon execution under partial observability. We formulate pair trading as a hierarchical reinforcement learning problem and propose a language-driven optimization framework in which both high-level and low-level policies are parameterized by large language models (LLMs) and optimized exclusively through prompt updates. Our approach leverages pretrained LLMs as hierarchical policies and uses trajectory- and episode-level textual feedback to adapt abstractions and execution without gradient-based fine-tuning. By explicitly separating abstraction selection from execution, the framework reduces non-stationarity across hierarchical levels and enables targeted adaptation under delayed feedback. Experiments on real-world market data show consistent improvements over traditional and LLM-based baselines, demonstrating the effectiveness of language-driven hierarchical reinforcement learning.
- Abstract(参考訳): 多くのシーケンシャルな意思決定問題は階層構造を示し、ハイレベルなセマンティックな選択は下流の動作を制限し、フィードバックは遅延し曖昧である。
パフォーマンスの劣化は、欠陥のある抽象化や準最適実行、あるいはそれらの相互作用から生じます。
この課題は、資産対選択のための長期水平意味推論と、部分的可観測性の下での短期水平実行を自然に組み合わせたドメインであるペアトレーディングを通じて研究する。
階層的強化学習問題としてペアトレーディングを定式化し,高レベルかつ低レベルのポリシを大言語モデル(LLM)でパラメータ化し,即時更新によってのみ最適化する言語駆動型最適化フレームワークを提案する。
提案手法では,事前学習したLLMを階層的ポリシとして活用し,軌道およびエピソードレベルのテキストフィードバックを用いて,勾配に基づく微調整を伴わずに抽象化と実行を適応する。
このフレームワークは、実行から抽象的な選択を明示的に分離することにより、階層レベルの非定常性を低減し、遅延したフィードバックの下でターゲット適応を可能にする。
実世界の市場データを用いた実験では,従来のLLMベースラインよりも一貫した改善が見られ,言語駆動型階層的強化学習の有効性が示された。
関連論文リスト
- Segment-Aligned Policy Optimization for Multi-Modal Reasoning [55.29606572822562]
本稿では、トークンや全シーケンスではなく、一貫性のある推論ステップをポリシー更新の基本単位として扱う新しい強化学習パラダイムを提案する。
代表的な推論ベンチマークの実験は、SAPOがトークンレベルおよびシーケンスレベルポリシー最適化手法を一貫して上回っていることを示している。
我々の研究は、強化学習の更新を推論の構造と整合させることの重要性を強調し、複雑な推論タスクにおけるより効率的でセマンティックに根ざした政策最適化の道を開く。
論文 参考訳(メタデータ) (2026-05-02T08:47:45Z) - Resurfacing Paralinguistic Awareness in Large Audio Language Models [64.48666302711108]
LALM(Large Audio Language Models)は、人間と音声との相互作用を拡張している。
LALMは通常そのようなパラ言語的な手がかりを無視し、クエリの内容のみに基づいて応答する。
本稿では,パラ言語対応機能を持つLALMに則って,パラ言語対応ファインチューニング(PE-FT)プロトコルを提案する。
論文 参考訳(メタデータ) (2026-03-12T13:56:42Z) - Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation [15.242490558864626]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、これまで見えなかった環境をナビゲートする必要がある。
本稿では,基礎となる言語モデルの変更や微調整を行うことなく,VLNを改善するための検索拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T17:00:11Z) - Efficient RL for optimizing conversation level outcomes with an LLM-based tutor [28.21843718188098]
大規模言語モデル(LLM)は、人間フィードバック(RLHF)フレームワークによる既存の強化学習に基づいて構築される。
学生の低次元潜在状態表現を用いて対話履歴を表現し,LLMに基づくチュータを強化する手法を提案する。
我々のモデルは軽量であり、チューターの次の発話を直接出力するために、チューターポリシーをエンドツーエンドにトレーニングする以前の作業よりも計算資源を少なくする。
論文 参考訳(メタデータ) (2025-07-22T05:56:46Z) - Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。