Fugu-MT 論文翻訳(概要): Deep Reinforcement Learning for Asset Allocation: Reward Clipping

論文の概要: Deep Reinforcement Learning for Asset Allocation: Reward Clipping

arxiv url: http://arxiv.org/abs/2301.05300v1
Date: Mon, 2 Jan 2023 03:54:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-29 14:27:36.634686
Title: Deep Reinforcement Learning for Asset Allocation: Reward Clipping
Title（参考訳）: アセットアロケーションのための深層強化学習:リワードクリッピング
Authors: Jiwon Kim and Moon-Ju Kang and KangHun Lee and HyungJun Moon and Bo-Kwan Jeon
Abstract要約: 本稿では,各モデルのキャラクタを分析して,リワードクリッピングモデル(Reward clipping model)と呼ばれる高度なアルゴリズムを導入する。 Reward Clippingモデルは金融分野の既存のモデル、特にポートフォリオ最適化よりも優れているようだ。
参考スコア（独自算出の注目度）: 4.882319198853359
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently, there are many trials to apply reinforcement learning in asset allocation for earning more stable profits. In this paper, we compare performance between several reinforcement learning algorithms - actor-only, actor-critic and PPO models. Furthermore, we analyze each models' character and then introduce the advanced algorithm, so called Reward clipping model. It seems that the Reward Clipping model is better than other existing models in finance domain, especially portfolio optimization - it has strength both in bull and bear markets. Finally, we compare the performance for these models with traditional investment strategies during decreasing and increasing markets.
Abstract（参考訳）: 近年、より安定した利益を得るために資産配分に強化学習を適用する試みが数多く行われている。本稿では,複数の強化学習アルゴリズム(アクターのみ,アクタークリティカル,PPOモデル)のパフォーマンスを比較する。さらに,各モデルのキャラクタを分析して,リワードクリッピングモデルと呼ばれる高度なアルゴリズムを導入する。報酬クリッピングモデルは、ファイナンスドメインの他の既存モデル、特にポートフォリオ最適化モデルよりも優れているようです。最後に、これらのモデルのパフォーマンスを、市場縮小と拡大中の従来の投資戦略と比較する。

関連論文リスト

Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文参考訳（メタデータ） (2025-07-02T05:10:29Z)
An Efficient deep learning model to Predict Stock Price Movement Based on Limit Order Book [11.613073850152873]
高周波取引(HFT)では、株価変動をモデル化するためにリミットオーダーブック(LOB)を活用することが、利益を得るために重要である。最近のディープラーニングモデルでさえ、価格の動きを効果的に捉えるのに苦労することが多い。本稿では,既存のディープラーニングモデルの性能向上のために,Siameseアーキテクチャを活用した新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-05-14T12:46:21Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
BreakGPT: Leveraging Large Language Models for Predicting Asset Price Surges [55.2480439325792]
本稿では,時系列予測や資産価格の急上昇の予測に特化して,新たな大規模言語モデル(LLM)アーキテクチャであるBreakGPTを紹介する。我々は、最小限のトレーニングで財務予測を行うための有望なソリューションとしてBreakGPTを紹介し、局所的およびグローバルな時間的依存関係をキャプチャする強力な競合相手として紹介する。
論文参考訳（メタデータ） (2024-11-09T05:40:32Z)
AAPM: Large Language Model Agent-based Asset Pricing Models [4.326886488307076]
本稿では, LLMエージェントからの質的意思決定的投資分析と, 定量的な手動経済要因を融合した新たな資産価格手法を提案する。実験結果から,本手法はポートフォリオ最適化および資産価格誤差において,機械学習に基づく資産価格ベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2024-09-25T18:27:35Z)
Hedge Fund Portfolio Construction Using PolyModel Theory and iTransformer [1.4061979259370274]
ヘッジファンドポートフォリオ構築のためのPolyModel理論を実装した。我々は,長期アルファ,長期比,SVaRなどの定量的尺度を作成する。また、最新のディープラーニング技術(iTransformer)を使って、上昇傾向を捉えています。
論文参考訳（メタデータ） (2024-08-06T17:55:58Z)
KAN based Autoencoders for Factor Models [13.512750745176664]
Kolmogorov-Arnold Networks (KANs) の最近の進歩に触発されて、潜在因子条件付き資産価格モデルに新しいアプローチを導入する。提案手法では,精度と解釈性の両方でモデルを超えるkanベースのオートエンコーダを提案する。提案モデルは,資産特性の非線形機能として露出を近似する際の柔軟性を向上するとともに,潜在要因を解釈するための直感的なフレームワークをユーザに提供する。
論文参考訳（メタデータ） (2024-08-04T02:02:09Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits [43.65904435249823]
本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
論文参考訳（メタデータ） (2024-03-11T23:52:46Z)
PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文参考訳（メタデータ） (2023-12-27T11:49:24Z)
MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文参考訳（メタデータ） (2023-04-10T15:44:50Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
Deep Reinforcement Learning for Long-Short Portfolio Optimization [7.131902599861306]
本稿では,実際の取引ルールに適合する短売制のポートフォリオ管理フレームワークであるDeep Reinforcement Learning (DRL)を構築した。鍵となるイノベーションは、長期にわたるトランザクションの動的進化を考慮に入れた、継続的取引における包括的な短期販売メカニズムの開発である。従来のアプローチと比較して、このモデルはリスク調整されたリターンを向上し、最大損失を低減します。
論文参考訳（メタデータ） (2020-12-26T16:25:20Z)
Deep Learning for Portfolio Optimization [5.833272638548154]
個々の資産を選択する代わりに、ポートフォリオを形成するために市場指標のETF(Exchange-Traded Funds)を交換します。我々は,本手法を広範囲のアルゴリズムと比較し,本モデルがテスト期間中に最高の性能を得ることを示す。
論文参考訳（メタデータ） (2020-05-27T21:28:43Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。