論文の概要: Inverse Reinforcement Learning for Text Summarization
- arxiv url: http://arxiv.org/abs/2212.09917v1
- Date: Mon, 19 Dec 2022 23:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:02:34.016217
- Title: Inverse Reinforcement Learning for Text Summarization
- Title(参考訳): テキスト要約のための逆強化学習
- Authors: Yu Fu, Deyi Xiong, Yue Dong
- Abstract要約: 逆強化学習(IRL)はテキスト要約に適している。
IRLは、エージェントの行動の一連の観察から、エージェントの報酬関数を推定することに焦点を当てる。
我々は、IRLで訓練されたモデルが、人間の行動に密接に追従する要約を生成することを示す。
- 参考スコア(独自算出の注目度): 55.32319150344674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art summarization models are trained with either maximum
likelihood estimation (MLE) or reinforcement learning (RL). In this study, we
investigate the third training paradigm and argue that inverse reinforcement
learning (IRL) may be more suitable for text summarization. IRL focuses on
estimating the reward function of an agent, given a set of observations of that
agent's behavior. Generally, IRL provides advantages in situations where the
reward function is not explicitly known or where it is difficult to define or
interact with the environment directly. These situations are exactly what we
observe in summarization. Thus, we introduce inverse reinforcement learning
into text summarization and define a suite of sub-rewards that are important
for summarization optimization. By simultaneously estimating the reward
function and optimizing the summarization agent with expert demonstrations, we
show that the model trained with IRL produces summaries that closely follow
human behavior, in terms of better ROUGE, coverage, novelty, compression ratio
and factuality when compared to the baselines trained with MLE and RL.
- Abstract(参考訳): 最先端の要約モデルは、最大確率推定(mle)または強化学習(rl)のいずれかで訓練される。
本研究では,第3の学習パラダイムを考察し,逆強化学習(IRL)がテキスト要約に適している可能性を議論する。
IRLは、エージェントの行動の一連の観察から、エージェントの報酬関数を推定することに焦点を当てる。
一般に、IRLは報酬関数が明示的に知られていない状況や、環境を直接定義したり操作することが難しい状況において利点を提供する。
これらの状況はまさに要約において観察されるものである。
そこで本研究では,テキスト要約に逆強化学習を導入し,要約最適化に重要なサブワード群を定義する。
irlで訓練されたモデルでは,mle と rl で訓練されたベースラインと比較して,報酬関数の見積もりと要約エージェントの最適化を同時に行うことにより,より優れたルージュ,カバレッジ,新規性,圧縮率,事実性の観点から,人間の行動に密接に従う要約を生成できることが示されている。
関連論文リスト
- DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文 参考訳(メタデータ) (2024-07-01T17:01:54Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Training a Helpful and Harmless Assistant with Reinforcement Learning
from Human Feedback [8.409764908043396]
人からのフィードバックからの好みのモデリングと強化学習を微調整言語モデルに適用し、補助的アシスタントとして機能させる。
このアライメントトレーニングにより,ほぼすべてのNLP評価の性能が向上することがわかった。
オンライントレーニングの反復的なモードについて検討し、人間のフィードバックデータを用いて毎週のケイデンスで好みモデルとRLポリシーを更新する。
論文 参考訳(メタデータ) (2022-04-12T15:02:38Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z) - Learning to summarize from human feedback [18.964548137315333]
人間の嗜好を最適化するモデルを訓練することで、要約品質を著しく改善できることを示す。
我々は、Reddit投稿のTL;DRデータセットのバージョンに適用し、我々のモデルは、人間の参照サマリーと、教師付き学習だけで微調整されたはるかに大きなモデルの両方を著しく上回っていることを発見した。
我々のモデルは、CNN/DMニュース記事にも移行し、ニュース特有の微調整なしに、人間の参照とほぼ同等の要約を生成する。
論文 参考訳(メタデータ) (2020-09-02T19:54:41Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。