Fugu-MT 論文翻訳(概要): Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics

論文の概要: Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics

arxiv url: http://arxiv.org/abs/2005.04269v1
Date: Fri, 8 May 2020 19:52:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 11:31:27.616211
Title: Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics
Title（参考訳）: 連続分布量的批評家の混和混合による過推定バイアスの制御
Authors: Arsenii Kuznetsov, Pavel Shvechikov, Alexander Grishin, Dmitry Vetrov
Abstract要約: 過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
参考スコア（独自算出の注目度）: 65.51757376525798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The overestimation bias is one of the major impediments to accurate off-policy learning. This paper investigates a novel way to alleviate the overestimation bias in a continuous control setting. Our method---Truncated Quantile Critics, TQC,---blends three ideas: distributional representation of a critic, truncation of critics prediction, and ensembling of multiple critics. Distributional representation and truncation allow for arbitrary granular overestimation control, while ensembling provides additional score improvements. TQC outperforms the current state of the art on all environments from the continuous control benchmark suite, demonstrating 25% improvement on the most challenging Humanoid environment.
Abstract（参考訳）: 過大評価バイアスは、正確なオフポリシー学習の障害の1つです。本稿では,連続制御環境での過大評価バイアスを緩和する新しい手法について検討する。我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。分布表現とトランケーションは任意の粒度の過大評価制御を可能にし、アンサンブルはさらなるスコア改善を提供する。 tqcは、連続制御ベンチマークスイートのすべての環境における現在の技術よりも優れており、最も挑戦的なヒューマノイド環境において25%の改善を示している。

関連論文リスト

CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。 RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文参考訳（メタデータ） (2025-06-27T12:10:57Z)
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文参考訳（メタデータ） (2025-02-18T03:31:06Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning [112.35483894933904]
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。 VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。 LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
論文参考訳（メタデータ） (2024-12-03T05:04:49Z)
Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-26T03:29:27Z)
On Centralized Critics in Multi-Agent Reinforcement Learning [16.361249170514828]
分散実行のためのトレーニングは、マルチエージェント強化学習において一般的なアプローチとなっている。我々は、部分的に観察可能な環境において、状態ベースの批評家を使うことの効果を分析する。
論文参考訳（メタデータ） (2024-08-26T19:27:06Z)
A Deeper Understanding of State-Based Critics in Multi-Agent Reinforcement Learning [17.36759906285316]
我々は、州ベースの批評家が政策推定に偏見を導入し、アルゴリズムの保証を損なう可能性があることを示す。また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。
論文参考訳（メタデータ） (2022-01-03T14:51:30Z)
Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。この課題に対処するための新しいクロスバリデーションのような方法論を提供する。本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文参考訳（メタデータ） (2021-12-14T17:53:01Z)
Automating Control of Overestimation Bias for Continuous Reinforcement Learning [65.63607016094305]
バイアス補正を導くためのデータ駆動型手法を提案する。我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsにおいて、その効果を実証する。
論文参考訳（メタデータ） (2021-10-26T09:27:12Z)
Parameter-Free Deterministic Reduction of the Estimation Bias in Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文参考訳（メタデータ） (2021-09-24T07:41:07Z)
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文参考訳（メタデータ） (2021-09-22T13:49:35Z)
Efficient Continuous Control with Double Actors and Regularized Critics [7.072664211491016]
我々は,長期にわたって無視されてきた二重アクターの可能性を探り,連続的な設定におけるより良い値関数推定法を提案する。我々は、DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため、シングル・批評家とダブル・批評家に二重アクターを構築した。二重批評家による価値推定の不確実性を軽減するため、二重アクターアーキテクチャの下での批判ネットワークの正規化を提案する。
論文参考訳（メタデータ） (2021-06-06T07:04:48Z)
Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文参考訳（メタデータ） (2020-11-04T21:47:39Z)
Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文参考訳（メタデータ） (2020-02-24T14:39:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。