論文の概要: RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation
- arxiv url: http://arxiv.org/abs/2106.04080v1
- Date: Tue, 8 Jun 2021 03:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:03:07.389729
- Title: RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation
- Title(参考訳): RewardsOfSum: 要約のための強化学習リワードを探る
- Authors: Jacob Parnell, Inigo Jauregi Unanue and Massimo Piccardi
- Abstract要約: 本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。
最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
- 参考スコア(独自算出の注目度): 7.0471949371778795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To date, most abstractive summarisation models have relied on variants of the
negative log-likelihood (NLL) as their training objective. In some cases,
reinforcement learning has been added to train the models with an objective
that is closer to their evaluation measures (e.g. ROUGE). However, the reward
function to be used within the reinforcement learning approach can play a key
role for performance and is still partially unexplored. For this reason, in
this paper, we propose two reward functions for the task of abstractive
summarisation: the first function, referred to as RwB-Hinge, dynamically
selects the samples for the gradient update. The second function, nicknamed
RISK, leverages a small pool of strong candidates to inform the reward. In the
experiments, we probe the proposed approach by fine-tuning an NLL pre trained
model over nine summarisation datasets of diverse size and nature. The
experimental results show a consistent improvement over the negative
log-likelihood baselines.
- Abstract(参考訳): これまで、ほとんどの抽象的な要約モデルは、トレーニング目的として負の対数類似度(NLL)の変種に依存してきた。
いくつかのケースでは、評価基準に近い目標(例)でモデルを訓練するために強化学習が加えられている。
ROUGE)。
しかし、強化学習アプローチで使用する報酬関数は、パフォーマンスの重要な役割を担い、まだ部分的には未検討である。
そこで本稿では,RwB-Hingeと呼ばれる第1の関数が勾配更新のサンプルを動的に選択する,抽象的要約のタスクに対する2つの報酬関数を提案する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
実験では,NLL事前学習モデルを,異なるサイズと性質の9つの要約データセット上で微調整することにより,提案手法を検証した。
実験結果から, 負の対数型ベースラインよりも一貫した改善が見られた。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - MRHER: Model-based Relay Hindsight Experience Replay for Sequential Object Manipulation Tasks with Sparse Rewards [11.79027801942033]
モデルベース Relay Hindsight Experience Replay (MRHER) と呼ばれる新しいモデルベースRLフレームワークを提案する。
MRHERは、継続的なタスクを複雑さを増してサブタスクに分解し、以前のサブタスクを使用して、その後のタスクの学習をガイドする。
MRHERは、ベンチマークタスクにおいて最先端のサンプル効率を示し、RHERの13.79%、14.29%を上回っている。
論文 参考訳(メタデータ) (2023-06-28T09:51:25Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Optimizing Active Learning for Low Annotation Budgets [6.753808772846254]
ディープラーニングでは、アクティブな学習は通常、微調整によって連続した深層モデルを更新する反復的なプロセスとして実装される。
移行学習にインスパイアされたアプローチを用いてこの問題に対処する。
本稿では,ALプロセスの反復性を利用してより堅牢なサンプルを抽出する新しい取得関数を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:53:10Z) - Batch Reinforcement Learning from Crowds [24.717084423091865]
バッチ強化学習の欠点は、データに対する報酬の要求である。
行動クローンのような報酬の欠如に関する既存の設定は、人間から集めた最適なデモンストレーションに依存している。
本論文は、選好から報酬関数を学習することで、バッチ強化学習環境における報酬の欠如に対処する。
論文 参考訳(メタデータ) (2021-11-08T05:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。