論文の概要: Make The Most of Prior Data: A Solution for Interactive Text
Summarization with Preference Feedback
- arxiv url: http://arxiv.org/abs/2204.05512v1
- Date: Tue, 12 Apr 2022 03:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:44:40.679256
- Title: Make The Most of Prior Data: A Solution for Interactive Text
Summarization with Preference Feedback
- Title(参考訳): 事前データを最大限に活用する: 好みフィードバックを伴う対話型テキスト要約ソリューション
- Authors: Duy-Hung Nguyen and Nguyen Viet Dung Nghiem and Bao-Sinh Nguyen and
Dung Tien Le and Shahab Sabahi and Minh-Tien Nguyen and Hung Le
- Abstract要約: 我々は、好みのフィードバックで要約モデルを対話的に訓練する新しいフレームワークを導入する。
オフラインデータと新しい報酬モデルを適切に活用することにより、ROUGEスコアとサンプル効率に関する性能を向上させる。
- 参考スコア(独自算出の注目度): 15.22874706089491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For summarization, human preference is critical to tame outputs of the
summarizer in favor of human interests, as ground-truth summaries are scarce
and ambiguous. Practical settings require dynamic exchanges between human and
AI agent wherein feedback is provided in an online manner, a few at a time. In
this paper, we introduce a new framework to train summarization models with
preference feedback interactively. By properly leveraging offline data and a
novel reward model, we improve the performance regarding ROUGE scores and
sample-efficiency. Our experiments on three various datasets confirm the
benefit of the proposed framework in active, few-shot and online settings of
preference learning.
- Abstract(参考訳): 要約にとって、人間の嗜好は、人間の利益を優先して要約者のテイムアウトプットに欠かせないものであり、基礎的な要約は乏しく曖昧である。
実践的な設定では、人間とaiエージェント間のダイナミックな交換が必要で、フィードバックはオンライン形式で提供され、一度に数回提供される。
本稿では,嗜好フィードバックを用いた要約モデルを対話的に学習するための新しいフレームワークを提案する。
オフラインデータと新たな報酬モデルを適切に活用することにより,ルージュスコアとサンプル効率の向上を図る。
提案する3つのデータセットを用いた実験により,提案フレームワークの有効・少数・オンラインの選好学習におけるメリットが確認できた。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Model-based Preference Optimization in Abstractive Summarization without Human Feedback [5.438770095369458]
人間のフィードバックを伴わずに要約能力を向上させるために,モデルベース推論最適化(MPO)を導入している。
標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-27T10:35:45Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Learning to summarize from human feedback [18.964548137315333]
人間の嗜好を最適化するモデルを訓練することで、要約品質を著しく改善できることを示す。
我々は、Reddit投稿のTL;DRデータセットのバージョンに適用し、我々のモデルは、人間の参照サマリーと、教師付き学習だけで微調整されたはるかに大きなモデルの両方を著しく上回っていることを発見した。
我々のモデルは、CNN/DMニュース記事にも移行し、ニュース特有の微調整なしに、人間の参照とほぼ同等の要約を生成する。
論文 参考訳(メタデータ) (2020-09-02T19:54:41Z) - Leveraging Historical Interaction Data for Improving Conversational
Recommender System [105.90963882850265]
アイテムと属性に基づく嗜好シーケンスを統合するための,新しい事前学習手法を提案する。
実世界の2つのデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-19T03:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。