論文の概要: Improving Summarization with Human Edits
- arxiv url: http://arxiv.org/abs/2310.05857v1
- Date: Mon, 9 Oct 2023 16:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 00:16:55.429412
- Title: Improving Summarization with Human Edits
- Title(参考訳): 編集による要約の改善
- Authors: Zonghai Yao, Benjamin J Schloss, and Sai P. Selvaraj
- Abstract要約: トレーニングループで人文編集データとモデル生成データの両方を併用するためのシーケンスアライメント(un)Likelihood Training(SALT)を提案する。
本実験では,一般領域要約から医療領域要約まで,人間のフィードバック探索を拡張した。
- 参考スコア(独自算出の注目度): 3.9423492082740372
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent work has shown the promise of learning with human feedback paradigms
to produce human-determined high-quality text. Existing works use human
feedback to train large language models (LLMs) in general domain abstractive
summarization and have obtained summary quality exceeding traditional
likelihood training. In this paper, we focus on a less explored form of human
feedback -- Human Edits. We propose Sequence Alignment (un)Likelihood Training
(SALT), a novel technique to use both the human-edited and model-generated data
together in the training loop. In addition, we demonstrate simulating Human
Edits with ground truth summaries coming from existing training data --
Imitation edits, along with the model-generated summaries obtained after the
training, to reduce the need for expensive human-edit data. In our experiments,
we extend human feedback exploration from general domain summarization to
medical domain summarization. Our results demonstrate the effectiveness of SALT
to improve the summary quality with Human and Imitation Edits.
- Abstract(参考訳): 近年の研究では、人間のフィードバックパラダイムで学習し、人間の判断による高品質なテキストを生成することが期待されている。
既存の作品は、人間のフィードバックを使って、一般的なドメイン抽象要約の大規模言語モデル(llm)を訓練し、従来よりも質の高い要約を得た。
本稿では,より探索の少ない人間のフィードバック,すなわち人間の編集に焦点をあてる。
トレーニングループにおいて,人文編集データとモデル生成データの両方を併用する新しい手法であるシーケンスアライメント(un)Likelihood Training(SALT)を提案する。
また,既存のトレーニングデータから得られる真実の要約と人文編集のシミュレーションを実演し,トレーニング後に得られたモデル生成要約と合わせて,高価な人文データの必要性を低減させる。
実験では,一般領域要約から医療領域要約まで,人間のフィードバック探索を拡張した。
以上の結果から,人間と模倣編集による要約品質向上のためのSALTの有効性が示された。
関連論文リスト
- Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Aligning Neural Machine Translation Models: Human Feedback in Training and Inference [27.84975767573212]
RLHF(Reinforcement Learning from Human feedback)は、言語モデルによって生成されたテキストの品質を向上させる技術である。
人間のアノテーションからトレーニングされたメトリクスを報酬モデルとして容易に利用できる機械翻訳(MT)では、最小ベイズリスクデコーディングと再ランクを用いた手法が最終品質の向上に成功している。
論文 参考訳(メタデータ) (2023-11-15T17:21:58Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - SLiC-HF: Sequence Likelihood Calibration with Human Feedback [35.74135968442311]
最近導入されたSequence Likelihood(SLiC)は、人間の嗜好から効果的に学習できることを示す。
TL;DR要約タスクの実験により、SLiC-HFは教師付き微調整ベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-17T17:57:10Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Human-in-the-loop Abstractive Dialogue Summarization [61.4108097664697]
我々は、異なるレベルの人間のフィードバックをトレーニングプロセスに組み込むことを提案する。
これにより、モデルをガイドして、人間が要約に用いている振る舞いを捉えることができます。
論文 参考訳(メタデータ) (2022-12-19T19:11:27Z) - Learning to summarize from human feedback [18.964548137315333]
人間の嗜好を最適化するモデルを訓練することで、要約品質を著しく改善できることを示す。
我々は、Reddit投稿のTL;DRデータセットのバージョンに適用し、我々のモデルは、人間の参照サマリーと、教師付き学習だけで微調整されたはるかに大きなモデルの両方を著しく上回っていることを発見した。
我々のモデルは、CNN/DMニュース記事にも移行し、ニュース特有の微調整なしに、人間の参照とほぼ同等の要約を生成する。
論文 参考訳(メタデータ) (2020-09-02T19:54:41Z) - Widening the Pipeline in Human-Guided Reinforcement Learning with
Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。
本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文 参考訳(メタデータ) (2020-06-26T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。