Fugu-MT 論文翻訳(概要): Reinforcement Learning in Non-Markovian Environments

関連論文リスト

Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文参考訳（メタデータ） (2025-07-15T16:33:01Z)
Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文参考訳（メタデータ） (2025-05-07T16:31:42Z)
Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-03-19T22:18:19Z)
Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文参考訳（メタデータ） (2024-01-01T06:53:36Z)
Bayesian Risk-Averse Q-Learning with Streaming Observations [7.330349128557128]
我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。エージェントの制御外にある実環境からの観測が定期的に到着する。実環境からのストリーミング観測でBRMDPを解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-05-18T20:48:50Z)
A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文参考訳（メタデータ） (2023-04-11T09:13:17Z)
Doubly Robust Counterfactual Classification [1.8907108368038217]
本研究では,仮説的(事実とは対照的に)なシナリオ下での意思決定のための新しいツールとして,カウンターファクトの分類について検討する。本稿では, 一般対物分類器のための2次ロバストな非パラメトリック推定器を提案する。
論文参考訳（メタデータ） (2023-01-15T22:04:46Z)
Evaluating Disentanglement in Generative Models Without Knowledge of Latent Factors [71.79984112148865]
本稿では,学習中に提示される学習力学に基づいて生成モデルのランキング付けを行う手法を提案する。本手法は,近年の解離の理論的特徴から着想を得たものであり,その根底にある潜伏因子の監督は不要である。
論文参考訳（メタデータ） (2022-10-04T17:27:29Z)
On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文参考訳（メタデータ） (2022-06-27T06:20:37Z)
Robust Reinforcement Learning with Distributional Risk-averse formulation [1.2891210250935146]
リスク・アバースの近似式を用いて,ロバスト強化学習を$Phi$-divergenceで制約する。古典的強化学習の定式化は、目的の標準偏差ペナル化を用いて堅牢化できることを示す。
論文参考訳（メタデータ） (2022-06-14T13:33:58Z)
A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文参考訳（メタデータ） (2021-02-26T13:48:49Z)
Composing Normalizing Flows for Inverse Problems [89.06155049265641]
本稿では,2つの流れモデルの合成として,対象条件を推定する近似推論フレームワークを提案する。本手法は,様々な逆問題に対して評価し,不確実性のある高品質な試料を作製することを示した。
論文参考訳（メタデータ） (2020-02-26T19:01:11Z)
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。我々は、ある政策の境界を推定するアプローチを開発する。より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文参考訳（メタデータ） (2020-02-11T16:18:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Reinforcement Learning in Non-Markovian Environments

関連論文リスト