Fugu-MT 論文翻訳(概要): A Better Variant of Self-Critical Sequence Training

論文の概要: A Better Variant of Self-Critical Sequence Training

arxiv url: http://arxiv.org/abs/2003.09971v2
Date: Sun, 10 May 2020 21:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 05:05:23.596563
Title: A Better Variant of Self-Critical Sequence Training
Title（参考訳）: 自己批判的シーケンス訓練のより良い変種
Authors: Ruotian Luo
Abstract要約: 本稿では,REINFORCEアルゴリズムにおけるベースライン関数の選択について簡単な変更を行う。新しいベースラインは、greedyデコードベースラインと比較して、余分なコストなしでパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 4.808094056423996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present a simple yet better variant of Self-Critical Sequence Training. We make a simple change in the choice of baseline function in REINFORCE algorithm. The new baseline can bring better performance with no extra cost, compared to the greedy decoding baseline.
Abstract（参考訳）: 本研究では,単純かつ優れた自己批判的シーケンストレーニングを提案する。本稿では,REINFORCEアルゴリズムにおけるベースライン関数の選択について簡単な変更を行う。新しいベースラインは、greedyデコードベースラインと比較して、余分なコストなしでパフォーマンスが向上する。

関連論文リスト

FUSE: First-Order and Second-Order Unified SynthEsis in Stochastic Optimization [9.909119107223265]
一階法と二階法は全く異なる状況にある。本稿では,一階法と二階法の両方を統一的なアルゴリズムフレームワークで活用する新しい手法を提案する。 FUSE-PVは、第1次と第2次を切り替える単純な最適化手法である。
論文参考訳（メタデータ） (2025-03-06T08:30:18Z)
Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization [1.1510009152620668]
自己改善学習のための単純で問題に依存しないシーケンス復号法を提案する。以前にサンプリングされたシーケンスを無視するためにポリシーを変更することで、目に見えない代替案のみを検討するように強制する。本手法は,ジョブショップスケジューリング問題における従来のNCO手法よりも優れていた。
論文参考訳（メタデータ） (2024-07-24T12:06:09Z)
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T17:26:39Z)
Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文参考訳（メタデータ） (2022-09-07T20:10:12Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
Class-Incremental Learning with Generative Classifiers [6.570917734205559]
本稿では,クラス増分学習のための新しい戦略を提案する。本提案は,p(x|y)p(y) として分解された合同分布 p(x,y) を学習し,ベイズ則を用いた分類を行うことである。ここでは,各学習クラスに対して,変分オートエンコーダをトレーニングすることで,この戦略を実証する。
論文参考訳（メタデータ） (2021-04-20T16:26:14Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Learning to Select Base Classes for Few-shot Classification [96.92372639495551]
我々は、数ショットモデルの一般化性能を示す指標として、類似度比を用いる。次に、類似度比に対する部分モジュラー最適化問題として基底クラス選択問題を定式化する。
論文参考訳（メタデータ） (2020-04-01T09:55:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。