Fugu-MT 論文翻訳(概要): Corrected Soft Actor Critic for Continuous Control

関連論文リスト

Overcoming Overfitting in Reinforcement Learning via Gaussian Process Diffusion Policy [10.637854569854232]
本稿では,拡散モデルとガウス過程回帰を統合した新しいアルゴリズムを提案する。シミュレーションの結果,本手法は分布シフト条件下での最先端アルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2025-06-16T05:41:06Z)
DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty [21.542065840791683]
深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
論文参考訳（メタデータ） (2025-06-14T20:36:44Z)
Bidirectional Soft Actor-Critic: Leveraging Forward and Reverse KL Divergence for Efficient Reinforcement Learning [3.7228978486172806]
SAC(Soft Actor-Critic)アルゴリズムは伝統的に、ポリシー更新の逆KL(Kulback-Leibler)の分散を最小化することに頼っている。本稿では,SAC内における前方KL分岐の代替的利用について検討する。提案アルゴリズムは,まず明示的な前方KLプロジェクションを用いてポリシを初期化し,次に逆KLの発散を最適化してこれを洗練する。
論文参考訳（メタデータ） (2025-06-02T13:15:30Z)
Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation [51.645152962504056]
半教師付きセマンティックセグメンテーションでは、データ拡張は弱い一貫性の規則化フレームワークにおいて重要な役割を果たす。空間増強はSSSSのモデルトレーニングに寄与するが,弱い面と強い面の間には一貫性のないマスクが生じる。本稿では,各インスタンスのエントロピーに基づいて動的に拡張を調整する適応的拡張戦略を提案する。
論文参考訳（メタデータ） (2025-05-29T13:35:48Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文参考訳（メタデータ） (2024-10-28T04:47:39Z)
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。 TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文参考訳（メタデータ） (2024-10-02T18:17:54Z)
A Batch Sequential Halving Algorithm without Performance Degradation [0.8283940114367677]
簡単な逐次バッチアルゴリズムでは,実運用環境での性能が劣化しないことを示す。実験により,固定サイズバッチ設定におけるアルゴリズムの頑健な性質を実証し,我々の主張を実証的に検証する。
論文参考訳（メタデータ） (2024-06-01T12:41:50Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
TS-RSR: A provably efficient approach for batch bayesian optimization [4.622871908358325]
本稿では,Phompson Smpling-Regret to Sigma Ratio Direct sampleという,バッチベイズ最適化(BO)の新しい手法を提案する。我々のサンプリング目的は、各バッチで選択されたアクションを、ポイント間の冗長性を最小化する方法で調整することができる。提案手法は, 難解な合成および現実的なテスト機能において, 最先端の性能を達成できることを実証する。
論文参考訳（メタデータ） (2024-03-07T18:58:26Z)
Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-15T14:55:38Z)
Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement Learning Using Unique Experiences [8.983448736644382]
リプレイバッファの効率的な利用は、非政治アクター-犯罪強化学習(RL)アルゴリズムにおいて重要な役割を担っている。本稿では,ユニークなサンプルを選択してリプレイバッファに追加することに焦点を当てた,サンプル効率を実現する手法を提案する。
論文参考訳（メタデータ） (2024-02-05T10:04:00Z)
Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-09T15:43:46Z)
Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T12:43:47Z)
Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。 D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-01-31T13:18:33Z)
Distributionally Adaptive Meta Reinforcement Learning [85.17284589483536]
テスト時間分布シフトの下で適切に振る舞うメタRLアルゴリズムのフレームワークを開発する。我々の枠組みは、分布のロバスト性に対する適応的なアプローチを中心とし、様々なレベルの分布シフトに対してロバストであるようメタポリスの人口を訓練する。本研究は, 分散シフト下での後悔を改善するための枠組みを示し, シミュレーションロボティクス問題に対する効果を実証的に示す。
論文参考訳（メタデータ） (2022-10-06T17:55:09Z)
An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文参考訳（メタデータ） (2021-04-12T16:34:43Z)
Stochastic Reweighted Gradient Descent [4.355567556995855]
SRG(stochastic reweighted gradient)と呼ばれる重要サンプリングに基づくアルゴリズムを提案する。我々は、提案手法の時間とメモリオーバーヘッドに特に注意を払っています。我々はこの発見を裏付ける実験結果を示す。
論文参考訳（メタデータ） (2021-03-23T04:09:43Z)
Learning Calibrated Uncertainties for Domain Shift: A Distributionally Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。提案手法は下流タスクに有利な校正不確実性を生成する。
論文参考訳（メタデータ） (2020-10-08T02:10:54Z)
Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文参考訳（メタデータ） (2020-06-04T09:46:52Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Corrected Soft Actor Critic for Continuous Control

関連論文リスト