Fugu-MT 論文翻訳(概要): Robust Action Gap Increasing with Clipped Advantage Learning

論文の概要: Robust Action Gap Increasing with Clipped Advantage Learning

arxiv url: http://arxiv.org/abs/2203.11677v1
Date: Sun, 20 Mar 2022 03:41:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-23 13:13:26.023263
Title: Robust Action Gap Increasing with Clipped Advantage Learning
Title（参考訳）: クリップ型アドバンテージ学習によるロバストな行動ギャップ増加
Authors: Zhe Zhang, Yaozhong Gan, Xiaoyang Tan
Abstract要約: 本稿では,この問題に対処するための新しい手法として,Cellped Advantage Learning (clipped AL)を提案する。我々の単純なクリッピングAL演算子は、高速収束の保証を享受するだけでなく、適切な作用ギャップも保持するので、大きな作用ギャップと高速収束のバランスが良い。
参考スコア（独自算出の注目度）: 20.760987175553645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advantage Learning (AL) seeks to increase the action gap between the optimal action and its competitors, so as to improve the robustness to estimation errors. However, the method becomes problematic when the optimal action induced by the approximated value function does not agree with the true optimal action. In this paper, we present a novel method, named clipped Advantage Learning (clipped AL), to address this issue. The method is inspired by our observation that increasing the action gap blindly for all given samples while not taking their necessities into account could accumulate more errors in the performance loss bound, leading to a slow value convergence, and to avoid that, we should adjust the advantage value adaptively. We show that our simple clipped AL operator not only enjoys fast convergence guarantee but also retains proper action gaps, hence achieving a good balance between the large action gap and the fast convergence. The feasibility and effectiveness of the proposed method are verified empirically on several RL benchmarks with promising performance.
Abstract（参考訳）: アドバンテージラーニング(AL)は、最適アクションとその競合とのアクションギャップを増大させ、予測エラーに対する堅牢性を改善することを目的としている。しかし、近似値関数によって誘導される最適作用が真の最適作用と一致しない場合に問題となる。本稿では,この課題に対処するための新しい手法として,Cellped Advantage Learning (clipped AL)を提案する。この手法は,すべてのサンプルに対する動作ギャップを盲目的に増やすことで,性能損失率の誤差を増大させる可能性があり,それを回避するため,適応的にアドバンテージ値を調整すべきである,という観測結果から着想を得たものである。単純なクリップ付きal演算子は高速収束保証を享受するだけでなく、適切な動作ギャップを保ちながら、大きな動作ギャップと高速収束のバランスを保っていることを示す。提案手法の有効性と有効性をいくつかのrlベンチマークで実証的に検証した。

関連論文リスト

Mirror Descent Actor Critic via Bounded Advantage Learning [0.0]
Mirror Descent Value Iteration (MDVI)は、Kulback-Leiblerの発散とエントロピーを、その値とポリシー更新の正則化として使用している。本稿では,MDVIのアクター・アクター・アクター・アクター・クリティカル(MDAC)を連続的なアクション・ドメインに対するアクター・アクター・アクター・アクター・アクター・アクター・クリティ(MDAC)として提案する。
論文参考訳（メタデータ） (2025-02-06T08:14:03Z)
Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文参考訳（メタデータ） (2025-01-26T03:22:22Z)
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文参考訳（メタデータ） (2024-10-28T04:47:39Z)
Optimal convex $M$-estimation via score matching [6.115859302936817]
実験的リスク最小化が回帰係数の下流推定における最適分散をもたらすデータ駆動凸損失関数を構築した。半パラメトリック手法は、雑音分布の対数密度の導関数の導関数の最も少ない近似を目標とする。
論文参考訳（メタデータ） (2024-03-25T12:23:19Z)
Smoothing Advantage Learning [20.760987175553645]
我々は、スムーシング・アドバンテージ・ラーニング (SAL) という、シンプルなアドバンテージ・ラーニング (AL) の変種を提案する。提案手法は, 収束率と近似誤差の上界とのトレードオフを制御し, ALの訓練手順を安定させるだけでなく, 最適作用値と準最適作用値との作用ギャップを増大させることにも有用である。
論文参考訳（メタデータ） (2022-03-20T03:52:32Z)
False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文参考訳（メタデータ） (2021-10-24T15:34:03Z)
Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文参考訳（メタデータ） (2021-09-13T16:09:31Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文参考訳（メタデータ） (2020-11-05T18:43:59Z)
BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文参考訳（メタデータ） (2020-06-07T13:38:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。