論文の概要: Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.17514v1
- Date: Wed, 29 Nov 2023 10:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:39:44.756684
- Title: Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning
- Title(参考訳): 強化が監督に取って代わる - 深層強化学習を用いたクエリ中心の要約
- Authors: Swaroop Nath, Harshad Khadilkar, Pushpak Bhattacharyya
- Abstract要約: クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
- 参考スコア(独自算出の注目度): 43.123290672073814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query-focused Summarization (QfS) deals with systems that generate summaries
from document(s) based on a query. Motivated by the insight that Reinforcement
Learning (RL) provides a generalization to Supervised Learning (SL) for Natural
Language Generation, and thereby performs better (empirically) than SL, we use
an RL-based approach for this task of QfS. Additionally, we also resolve the
conflict of employing RL in Transformers with Teacher Forcing. We develop
multiple Policy Gradient networks, trained on various reward signals: ROUGE,
BLEU, and Semantic Similarity, which lead to a 10-point improvement over the
State-of-the-Art approach on the ROUGE-L metric for a benchmark dataset (ELI5).
We also show performance of our approach in zero-shot setting for another
benchmark dataset (DebatePedia) -- our approach leads to results comparable to
baselines, which were specifically trained on DebatePedia. To aid the RL
training, we propose a better semantic similarity reward, enabled by a novel
Passage Embedding scheme developed using Cluster Hypothesis. Lastly, we
contribute a gold-standard test dataset to further research in QfS and
Long-form Question Answering (LfQA).
- Abstract(参考訳): クエリにフォーカスした要約(qfs)は、クエリに基づいてドキュメントから要約を生成するシステムを扱う。
強化学習(RL)が自然言語生成のための監視学習(SL)を一般化し、SLよりも(経験的に)優れた(実践的な)性能を発揮するという知見に感銘を受け、このタスクのQfSにRLベースのアプローチを用いる。
また,教師強制型トランスフォーマーにおけるRL採用の対立も解消する。
我々は、ROUGE、BLEU、Semantic similarityという様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発し、ベンチマークデータセット(ELI5)のROUGE-Lメトリックに対するState-of-Artアプローチよりも10ポイント改善した。
また、別のベンチマークデータセット(debatepedia)のゼロショット設定における私たちのアプローチのパフォーマンスも示しています。
RL学習を支援するために,クラスタ仮説を用いた新しいPassage Embeddingスキームにより,よりセマンティックな類似性報酬を提案する。
最後に、QfSおよびLong-form Question Answering(LfQA)のさらなる研究にゴールドスタンダードテストデータセットを貢献する。
関連論文リスト
- CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering [33.89497991289916]
そこで本研究では,新たな書込み手法であるCoTKRを提案し,推論トレースとそれに対応する知識をインターリーブ方式で生成する。
我々は,様々な知識グラフ質問回答 (KGQA) ベンチマークを用いて,様々な言語モデル (LLM) を用いて実験を行う。
論文 参考訳(メタデータ) (2024-09-29T16:08:45Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
大規模言語モデル(LLM)は、内部(パラメトリック)知識にのみ依存して、事実的な回答を生成するのに苦労することが多い。
この制限に対処するため、Retrieval-Augmented Generation (RAG)システムでは、外部ソースから関連情報を検索することでLLMを強化している。
我々はLLMのランキング機能を活用してW-RAGを提案する。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - SIBRE: Self Improvement Based REwards for Adaptive Feedback in
Reinforcement Learning [5.868852957948178]
強化学習(RL)における収束率向上のための汎用的な報酬形成手法を提案する。
このアプローチは既存のRLアルゴリズムと併用して使用するために設計されており、エージェントの過去のパフォーマンスよりも報奨的な改善で構成されている。
我々は、SIBREが元のRLアルゴリズムと同じ条件下で期待に収束することを証明した。
論文 参考訳(メタデータ) (2020-04-21T09:22:16Z) - Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing [2.5137859989323537]
多数のポリシーネットワークは、パラメータをランダムに推測して生成され、その後、ベンチマークタスクで評価される。
本手法は, 環境の複雑さを分離し, 課題の種類を明確にし, 課題の難易度を統計的に解析するための適切な基盤を提供する。
我々は、OpenAI Gymの様々な古典的な制御ベンチマークでアプローチをテストし、そこでは、訓練されていない小さなネットワークが様々なタスクに対して堅牢なベースラインを提供することを示す。
論文 参考訳(メタデータ) (2020-04-16T15:32:52Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。