論文の概要: Reinforcement Learning with Large Action Spaces for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2210.03053v1
- Date: Thu, 6 Oct 2022 16:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:06:42.524797
- Title: Reinforcement Learning with Large Action Spaces for Neural Machine
Translation
- Title(参考訳): ニューラルネットワーク翻訳のための大きな動作空間を用いた強化学習
- Authors: Asaf Yehudai, Leshem Choshen, Lior Fox, Omri Abend
- Abstract要約: 語彙のサイズを小さくすることでRLの有効性が向上することが判明した。
また, 語彙を変化させることなく, 行動空間の次元を効果的に小さくすることで, 顕著な改善がもたらされることも見いだされた。
- 参考スコア(独自算出の注目度): 31.300023922659168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying Reinforcement learning (RL) following maximum likelihood estimation
(MLE) pre-training is a versatile method for enhancing neural machine
translation (NMT) performance. However, recent work has argued that the gains
produced by RL for NMT are mostly due to promoting tokens that have already
received a fairly high probability in pre-training. We hypothesize that the
large action space is a main obstacle to RL's effectiveness in MT, and conduct
two sets of experiments that lend support to our hypothesis. First, we find
that reducing the size of the vocabulary improves RL's effectiveness. Second,
we find that effectively reducing the dimension of the action space without
changing the vocabulary also yields notable improvement as evaluated by BLEU,
semantic similarity, and human evaluation. Indeed, by initializing the
network's final fully connected layer (that maps the network's internal
dimension to the vocabulary dimension), with a layer that generalizes over
similar actions, we obtain a substantial improvement in RL performance: 1.5
BLEU points on average.
- Abstract(参考訳): 最大極大推定(MLE)による強化学習(RL)の適用は、ニューラルネットワーク翻訳(NMT)性能を向上させるための汎用的な方法である。
しかし、最近の研究は、NMTのRLが生み出す利益は主に、既に事前訓練の確率がかなり高いトークンの促進によるものであると論じている。
我々は、大きな作用空間がMTにおけるRLの有効性の主な障害であると仮定し、我々の仮説を支持する2つの実験を行う。
まず,語彙のサイズを小さくすることで,RLの有効性が向上することがわかった。
第二に、語彙を変化させることなく行動空間の次元を効果的に減らすことは、BLEU、意味的類似性、人的評価による顕著な改善をもたらす。
実際、ネットワークの最終完全連結層(ネットワークの内部次元を語彙次元にマッピングする)を、類似のアクションを一般化する層で初期化することで、rl性能の大幅な改善(平均1.5 bleu点)が得られる。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation [43.506732624371786]
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2023-08-04T09:35:45Z) - On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Trainable Weight Averaging: A General Approach for Subspace Training [20.58652836107849]
低次元サブスペースにおけるディープニューラルネットワーク(DNN)のトレーニングは、効率的なトレーニングとより良いパフォーマンスを達成する上で有望な方向である。
サブスペーストレーニングのための一般的なアプローチであるemphTrainable Weight Averaging (TWA)を提案する。
TWAは部分空間抽出の点で効率的であり、一般化が容易である。
論文 参考訳(メタデータ) (2022-05-26T01:54:48Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Neural Semi-supervised Learning for Text Classification Under
Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。
我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文 参考訳(メタデータ) (2020-11-17T13:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。