論文の概要: Estimating Subjective Crowd-Evaluations as an Additional Objective to
Improve Natural Language Generation
- arxiv url: http://arxiv.org/abs/2104.05224v1
- Date: Mon, 12 Apr 2021 06:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 04:05:15.129143
- Title: Estimating Subjective Crowd-Evaluations as an Additional Objective to
Improve Natural Language Generation
- Title(参考訳): 自然言語生成改善のための追加目的としての主観的集団評価の推定
- Authors: Jakob Nyberg, Ramesh Manuvinakurike, Maike Paetzel-Pr\"usmann
- Abstract要約: 我々は6つの異なる言語生成モデルについて,群衆による対話コーパスを用いて微調整を行う。
これらのモデルのうち2つはマルチタスク学習を取り入れ、明確な学習目標の一部としてラインの主観評価を使用する。
生成した対話行の人間による評価では、マルチタスクモデルによって生成された発話が主観的に最も典型的であり、最も会話を前進させ、最も攻撃的であることを明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human ratings are one of the most prevalent methods to evaluate the
performance of natural language processing algorithms. Similarly, it is common
to measure the quality of sentences generated by a natural language generation
model using human raters. In this paper, we argue for exploring the use of
subjective evaluations within the process of training language generation
models in a multi-task learning setting. As a case study, we use a
crowd-authored dialogue corpus to fine-tune six different language generation
models. Two of these models incorporate multi-task learning and use subjective
ratings of lines as part of an explicit learning goal. A human evaluation of
the generated dialogue lines reveals that utterances generated by the
multi-tasking models were subjectively rated as the most typical, most moving
the conversation forward, and least offensive. Based on these promising first
results, we discuss future research directions for incorporating subjective
human evaluations into language model training and to hence keep the human user
in the loop during the development process.
- Abstract(参考訳): 人間の評価は自然言語処理アルゴリズムの性能を評価する最も一般的な手法の1つである。
同様に、自然言語生成モデルによって生成される文の質を人格を用いて測定することが一般的である。
本稿では,マルチタスク学習環境における言語生成モデルの学習過程における主観評価の利用について検討する。
事例研究として,6種類の言語生成モデルについて,群衆による対話コーパスを用いて微調整を行った。
これらのモデルのうち2つはマルチタスク学習を取り入れ、明確な学習目標の一部としてラインの主観評価を使用する。
生成した対話行の人間による評価は、マルチタスクモデルによって生成された発話が、最も典型的であり、最も会話を前進させ、最も攻撃的であることを示す。
これらの有望な最初の結果に基づいて、言語モデルトレーニングに主観的人間評価を取り入れた将来の研究の方向性を議論し、開発プロセス中にユーザーをループに留める。
関連論文リスト
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Multilingual Language Models Predict Human Reading Behavior [8.830621849672108]
言語固有および多言語事前学習トランスフォーマーモデルの性能比較を行い,読解時間尺度の予測を行った。
BERT と XLM のモデルでは,様々な視線追跡特性の予測に成功している。
一連の実験で、これらのモデルのクロスドメインおよびクロス言語能力を分析し、人間の文処理をどのように反映するかを示す。
論文 参考訳(メタデータ) (2021-04-12T13:03:49Z) - Knowledge-Grounded Dialogue Generation with Pre-trained Language Models [74.09352261943911]
我々は、事前学習された言語モデルを用いた知識基底対話生成について研究する。
本稿では,知識選択モジュールを用いた事前学習言語モデルによって定義された等価応答生成を提案する。
論文 参考訳(メタデータ) (2020-10-17T16:49:43Z) - QURIOUS: Question Generation Pretraining for Text Generation [13.595014409069584]
本稿では,テキスト生成目標に適合する事前学習手法として質問生成を提案する。
本手法で事前訓練したテキスト生成モデルは,入力の本質を理解するのが得意であり,目的タスクに適した言語モデルである。
論文 参考訳(メタデータ) (2020-04-23T08:41:52Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。