Fugu-MT 論文翻訳(概要): Hierarchical Reinforcement Learning for Temporal Pattern Prediction

論文の概要: Hierarchical Reinforcement Learning for Temporal Pattern Prediction

arxiv url: http://arxiv.org/abs/2310.05695v1
Date: Mon, 9 Oct 2023 13:15:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 04:49:59.900622
Title: Hierarchical Reinforcement Learning for Temporal Pattern Prediction
Title（参考訳）: 時間パターン予測のための階層型強化学習
Authors: Faith Johnson, Kristin Dana
Abstract要約: 本研究では,歴史的株価データから時間的価格列を予測するストックエージェントと,一対一のダッシュカム画像から定位角度を予測する車両エージェントを開発する。両領域で行った結果から,封建的強化学習と呼ばれるHRLは,標準RLよりもトレーニング速度,安定性,予測精度を大幅に向上することが示された。
参考スコア（独自算出の注目度）: 1.6317061277457001
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we explore the use of hierarchical reinforcement learning (HRL) for the task of temporal sequence prediction. Using a combination of deep learning and HRL, we develop a stock agent to predict temporal price sequences from historical stock price data and a vehicle agent to predict steering angles from first person, dash cam images. Our results in both domains indicate that a type of HRL, called feudal reinforcement learning, provides significant improvements to training speed and stability and prediction accuracy over standard RL. A key component to this success is the multi-resolution structure that introduces both temporal and spatial abstraction into the network hierarchy.
Abstract（参考訳）: 本研究では,時間的シーケンス予測における階層的強化学習(HRL)の利用について検討する。深層学習とHRLの組み合わせを用いて,過去の株価データから時間的価格シーケンスを予測するストックエージェントと,一対一のダッシュカム画像から操舵角度を予測する車両エージェントを開発した。両領域で行った結果から,封建的強化学習と呼ばれるHRLは,標準RLよりもトレーニング速度,安定性,予測精度を大幅に向上することが示された。この成功の鍵となる要素は、ネットワーク階層に時間的および空間的抽象化をもたらすマルチレゾリューション構造である。

関連論文リスト

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning [61.380634253724594]
次トーケン予測に基づく大規模自己回帰モデルの構築と強化学習(RL)による微調整自己回帰モデルの内部表現を動作させ,探索することにより,この問題を克服できることを示す。
論文参考訳（メタデータ） (2025-12-23T18:51:50Z)
Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文参考訳（メタデータ） (2025-12-15T18:02:35Z)
TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。 TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文参考訳（メタデータ） (2025-10-01T10:21:18Z)
PredNext: Explicit Cross-View Temporal Prediction for Unsupervised Learning in Spiking Neural Networks [70.1286354746363]
Spiking Neural Networks (SNN)は、教師なし表現学習のための自然なプラットフォームを提供する。現在の監視されていないSNNは、浅いアーキテクチャや局所的な可塑性ルールを採用しており、長期の時間的依存関係をモデル化する能力を制限する。我々は,横断的なステップ予測とクリップ予測を通じて時間的関係を明示的にモデル化するPredNextを提案する。
論文参考訳（メタデータ） (2025-09-29T14:27:58Z)
Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。 Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文参考訳（メタデータ） (2025-09-23T17:10:40Z)
rETF-semiSL: Semi-Supervised Learning for Neural Collapse in Temporal Data [44.17657834678967]
本稿では,ニューラル・コラプス現象を満たす潜在表現を強制する,新しい半教師付き事前学習戦略を提案する。 LSTM, トランスフォーマー, 状態空間モデルに適用した場合, 従来のプリテキストタスクよりも有意に優れることを示す。
論文参考訳（メタデータ） (2025-08-13T19:16:47Z)
Self-supervised Spatial-Temporal Learner for Precipitation Nowcasting [5.365086662531667]
気象の短期予測は、時間と天候に依存した決定を行うために不可欠である。本研究では,自己教師型学習の利点を活用し,空間時間学習と統合し,新しいモデルであるSpaT-SparKを開発した。
論文参考訳（メタデータ） (2024-12-20T14:09:36Z)
Deep End-to-End Survival Analysis with Temporal Consistency [49.77103348208835]
本稿では,大規模長手データの処理を効率的に行うために,Survival Analysisアルゴリズムを提案する。我々の手法における中心的な考え方は、時間とともにデータにおける過去と将来の成果が円滑に進化するという仮説である時間的一貫性である。我々のフレームワークは、安定したトレーニング信号を提供することで、時間的一貫性を大きなデータセットに独自に組み込む。
論文参考訳（メタデータ） (2024-10-09T11:37:09Z)
ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文参考訳（メタデータ） (2024-09-10T07:34:19Z)
Hierarchical Classification Auxiliary Network for Time Series Forecasting [26.92086695600799]
本稿では,時系列値をトークン化して,クロスエントロピー損失による予測モデルをトレーニングする手法を提案する。本稿では,任意の予測モデルと統合可能な一般モデル非依存コンポーネントである階層分類補助ネットワークHCANを提案する。 HCANと最先端の予測モデルを統合する実験は、いくつかの実世界のデータセットのベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-05-29T10:38:25Z)
Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-01-01T12:08:35Z)
Graph-enabled Reinforcement Learning for Time Series Forecasting with Adaptive Intelligence [11.249626785206003]
グラフニューラルネットワーク(GNN)と強化学習(RL)を用いたモニタリングによる時系列データの予測手法を提案する。 GNNは、データのグラフ構造をモデルに明示的に組み込むことができ、時間的依存関係をより自然な方法でキャプチャすることができる。このアプローチは、医療、交通、天気予報など、複雑な時間構造におけるより正確な予測を可能にする。
論文参考訳（メタデータ） (2023-09-18T22:25:12Z)
Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文参考訳（メタデータ） (2022-06-05T08:49:16Z)
Self-Adaptive Forecasting for Improved Deep Learning on Non-Stationary Time-Series [20.958959332978726]
SAFは、バックキャストに基づく予測に先立って自己適応段階を統合する」提案手法は,符号化された表現を進化する分布に効率よく適応させることにより,より優れた一般化を実現する。時系列データが医療や金融などの非定常性で知られる領域における合成および実世界のデータセットについて、SAFの顕著なメリットを実証する。
論文参考訳（メタデータ） (2022-02-04T21:54:10Z)
Time Series Forecasting with Ensembled Stochastic Differential Equations Driven by L\'evy Noise [2.3076895420652965]
我々は、ニューラルネットワークを備えたSDEの集合を用いて、ノイズのある時系列の長期的な傾向を予測する。まず、位相空間再構成法を用いて時系列データの固有次元を抽出する。次に、$alpha$-stable L'evyの動作によって駆動されるSDEを探索し、時系列データをモデル化し、ニューラルネットワーク近似を用いて問題を解く。
論文参考訳（メタデータ） (2021-11-25T16:49:01Z)
Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-10-18T17:56:02Z)
Phase Retrieval using Expectation Consistent Signal Recovery Algorithm based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文参考訳（メタデータ） (2021-01-12T08:36:23Z)
Stochastically forced ensemble dynamic mode decomposition for forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文参考訳（メタデータ） (2020-10-08T20:25:52Z)
A machine learning approach for forecasting hierarchical time series [4.157415305926584]
階層時系列を予測するための機械学習手法を提案する。予測整合は予測を調整し、階層をまたいで一貫性を持たせるプロセスである。我々は、階層構造をキャプチャする情報を抽出するディープニューラルネットワークの能力を利用する。
論文参考訳（メタデータ） (2020-05-31T22:26:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。