論文の概要: Efficient Reinforcement Learning for Unsupervised Controlled Text
Generation
- arxiv url: http://arxiv.org/abs/2204.07696v1
- Date: Sat, 16 Apr 2022 01:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 12:49:09.874162
- Title: Efficient Reinforcement Learning for Unsupervised Controlled Text
Generation
- Title(参考訳): 教師なしテキスト生成のための効率的強化学習
- Authors: Bhargav Upadhyay, Akhilesh Sudhakar, Arjun Maheswaran
- Abstract要約: 教師なしテキストスタイル転送などの制御されたテキスト生成タスクは、強化学習(RL)の利用をますます採用している。
このようなタスクにRLを適用する上で大きな課題はスパース報酬であり、完全なテキストが生成されるとのみ利用可能である。
この研究は、各生成されたトークンに高い報酬を与える新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.45119235878273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlled text generation tasks such as unsupervised text style transfer
have increasingly adopted the use of Reinforcement Learning (RL). A major
challenge in applying RL to such tasks is the sparse reward, which is available
only after the full text is generated. Sparse rewards, combined with a large
action space make RL training sample-inefficient and difficult to converge.
Recently proposed reward-shaping strategies to address this issue have shown
only negligible gains. In contrast, this work proposes a novel approach that
provides dense rewards to each generated token. We evaluate our approach by its
usage in unsupervised text style transfer. Averaged across datasets, our style
transfer system improves upon current state-of-art systems by 21\% on human
evaluation and 12\% on automatic evaluation. Upon ablated comparison with the
current reward shaping approach (the `roll-out strategy'), using dense rewards
improves the overall style transfer quality by 22\% based on human evaluation.
Further the RL training is 2.5 times as sample efficient, and 7 times faster.
- Abstract(参考訳): 教師なしテキストスタイル転送などの制御済みテキスト生成タスクでは,強化学習(rl)が採用されている。
このようなタスクにRLを適用する上で大きな課題はスパース報酬であり、完全なテキストが生成されるとのみ利用可能である。
スパース報酬と大きなアクション空間を組み合わせることで、RLトレーニングのサンプル非効率性と収束が困難になる。
近年、この問題に対処する報酬形成戦略は無視できる利得しか示していない。
対照的に、この研究はそれぞれの生成されたトークンに深い報酬を与える新しいアプローチを提案する。
本手法は,教師なしテキスト転送における使用法によって評価する。
データセット全体で平均すると、現在の最先端のシステムでは、人間評価で21対%、自動評価で12対%改善しています。
従来の報酬形成手法(「ロールアウト戦略」)と比較すると,人的評価に基づいて,報酬の高密度化により全体の転送品質が22%向上する。
さらにRLトレーニングは、サンプル効率の2.5倍、そして7倍高速である。
関連論文リスト
- SR-Reward: Taking The Path More Traveled [8.818066308133108]
オフラインでのデモンストレーションから報酬関数を直接学習する新しい手法を提案する。
従来の逆強化学習(IRL)とは異なり,本手法は学習者の方針から報酬関数を分離する。
textitSR-Rewardと呼ばれる我々の報酬関数は、後継表現(SR)を利用して、実証ポリシーと遷移ダイナミクスの下で期待される将来の状態の訪問に基づいて状態をエンコードする。
論文 参考訳(メタデータ) (2025-01-04T16:21:10Z) - Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation [43.506732624371786]
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2023-08-04T09:35:45Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Weakly Supervised Scene Text Detection using Deep Reinforcement Learning [6.918282834668529]
強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
論文 参考訳(メタデータ) (2022-01-13T10:15:42Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。
我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。
我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2020-10-24T04:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。