論文の概要: Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models
- arxiv url: http://arxiv.org/abs/2002.05058v1
- Date: Wed, 12 Feb 2020 15:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:02:11.874265
- Title: Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models
- Title(参考訳): オープンドメイン自然言語生成モデルのより良い訓練と評価のための比較学習
- Authors: Wangchunshu Zhou and Ke Xu
- Abstract要約: そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
- 参考スコア(独自算出の注目度): 23.62054164511058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated evaluation of open domain natural language generation (NLG) models
remains a challenge and widely used metrics such as BLEU and Perplexity can be
misleading in some cases. In our paper, we propose to evaluate natural language
generation models by learning to compare a pair of generated sentences by
fine-tuning BERT, which has been shown to have good natural language
understanding ability. We also propose to evaluate the model-level quality of
NLG models with sample-level comparison results with skill rating system. While
able to be trained in a fully self-supervised fashion, our model can be further
fine-tuned with a little amount of human preference annotation to better
imitate human judgment. In addition to evaluating trained models, we propose to
apply our model as a performance indicator during training for better
hyperparameter tuning and early-stopping. We evaluate our approach on both
story generation and chit-chat dialogue response generation. Experimental
results show that our model correlates better with human preference compared
with previous automated evaluation approaches. Training with the proposed
metric yields better performance in human evaluation, which further
demonstrates the effectiveness of the proposed model.
- Abstract(参考訳): オープンドメイン自然言語生成(NLG)モデルの自動評価は依然として課題であり、BLEUやPerplexityといった広く使われている指標は誤解を招くことがある。
本稿では,自然言語理解能力が良好であることが判明した,合成文対の比較を学習し,自然言語生成モデルを評価することを提案する。
また, nlgモデルのモデルレベル品質を, サンプルレベル比較結果とスキルレーティングシステムを用いて評価する。
完全に自己監督された方法で訓練することができるが、我々のモデルは人間の判断をよりよく模倣するために、少量の人間の好みアノテーションでさらに微調整することができる。
トレーニングモデルの評価に加えて,ハイパーパラメータチューニングと早期停止の改善のために,トレーニング中のパフォーマンス指標としてモデルを適用することを提案する。
我々は,物語生成とチャット対話生成の両方に対するアプローチを評価する。
実験の結果,従来の自動評価手法と比較して,モデルが人間の好みと相関することがわかった。
提案手法を用いたトレーニングは, 提案モデルの有効性をさらに示し, 評価精度の向上をもたらす。
関連論文リスト
- Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Automatic Evaluation of Generative Models with Instruction Tuning [14.369719297698694]
特定の課題に対する人間の判断と評価基準をエミュレートするための,近年のパラダイムファインチューン事前訓練言語モデルについて検討した。
命令チューニングモデルの一般化能力に着想を得て,命令チューニングに基づく学習指標を提案する。
論文 参考訳(メタデータ) (2023-10-30T23:00:52Z) - Learning Evaluation Models from Large Language Models for Sequence
Generation [44.22820310679188]
大規模言語モデルは、シーケンス生成評価において最先端のパフォーマンスを達成するが、典型的には多数のパラメータを持つ。
テキスト評価用textbfcapability textbftransfer 法である textbfECT を提案し,その評価能力を LLM から比較的軽量な言語モデルに転送する。
提案するECTに基づいて、ChatGPTから様々な評価モデルを学び、それらを報酬モデルとして利用してシーケンス生成モデルを改善する。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Knowledge-Grounded Dialogue Generation with Pre-trained Language Models [74.09352261943911]
我々は、事前学習された言語モデルを用いた知識基底対話生成について研究する。
本稿では,知識選択モジュールを用いた事前学習言語モデルによって定義された等価応答生成を提案する。
論文 参考訳(メタデータ) (2020-10-17T16:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。