論文の概要: A Better Variant of Self-Critical Sequence Training
- arxiv url: http://arxiv.org/abs/2003.09971v2
- Date: Sun, 10 May 2020 21:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:05:23.596563
- Title: A Better Variant of Self-Critical Sequence Training
- Title(参考訳): 自己批判的シーケンス訓練のより良い変種
- Authors: Ruotian Luo
- Abstract要約: 本稿では,REINFORCEアルゴリズムにおけるベースライン関数の選択について簡単な変更を行う。
新しいベースラインは、greedyデコードベースラインと比較して、余分なコストなしでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 4.808094056423996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a simple yet better variant of Self-Critical
Sequence Training. We make a simple change in the choice of baseline function
in REINFORCE algorithm. The new baseline can bring better performance with no
extra cost, compared to the greedy decoding baseline.
- Abstract(参考訳): 本研究では,単純かつ優れた自己批判的シーケンストレーニングを提案する。
本稿では,REINFORCEアルゴリズムにおけるベースライン関数の選択について簡単な変更を行う。
新しいベースラインは、greedyデコードベースラインと比較して、余分なコストなしでパフォーマンスが向上する。
関連論文リスト
- Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization [1.1510009152620668]
自己改善学習のための単純で問題に依存しないシーケンス復号法を提案する。
以前にサンプリングされたシーケンスを無視するためにポリシーを変更することで、目に見えない代替案のみを検討するように強制する。
本手法は,ジョブショップスケジューリング問題における従来のNCO手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-24T12:06:09Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文 参考訳(メタデータ) (2022-09-07T20:10:12Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Class-Incremental Learning with Generative Classifiers [6.570917734205559]
本稿では,クラス増分学習のための新しい戦略を提案する。
本提案は,p(x|y)p(y) として分解された合同分布 p(x,y) を学習し,ベイズ則を用いた分類を行うことである。
ここでは,各学習クラスに対して,変分オートエンコーダをトレーニングすることで,この戦略を実証する。
論文 参考訳(メタデータ) (2021-04-20T16:26:14Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Learning to Select Base Classes for Few-shot Classification [96.92372639495551]
我々は、数ショットモデルの一般化性能を示す指標として、類似度比を用いる。
次に、類似度比に対する部分モジュラー最適化問題として基底クラス選択問題を定式化する。
論文 参考訳(メタデータ) (2020-04-01T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。