論文の概要: Automatic Evaluation of Generative Models with Instruction Tuning
- arxiv url: http://arxiv.org/abs/2310.20072v1
- Date: Mon, 30 Oct 2023 23:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:12:05.039261
- Title: Automatic Evaluation of Generative Models with Instruction Tuning
- Title(参考訳): インストラクションチューニングによる生成モデルの自動評価
- Authors: Shuhaib Mehri and Vered Shwartz
- Abstract要約: 特定の課題に対する人間の判断と評価基準をエミュレートするための,近年のパラダイムファインチューン事前訓練言語モデルについて検討した。
命令チューニングモデルの一般化能力に着想を得て,命令チューニングに基づく学習指標を提案する。
- 参考スコア(独自算出の注目度): 14.369719297698694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation of natural language generation has long been an elusive
goal in NLP.A recent paradigm fine-tunes pre-trained language models to emulate
human judgements for a particular task and evaluation criterion. Inspired by
the generalization ability of instruction-tuned models, we propose a learned
metric based on instruction tuning. To test our approach, we collected HEAP, a
dataset of human judgements across various NLG tasks and evaluation criteria.
Our findings demonstrate that instruction tuning language models on HEAP yields
good performance on many evaluation tasks, though some criteria are less
trivial to learn than others. Further, jointly training on multiple tasks can
yield additional performance improvements, which can be beneficial for future
tasks with little to no human annotated data.
- Abstract(参考訳): 自然言語生成の自動評価は,NLPにおいて長い間,あるタスクに対する人間の判断と評価基準をエミュレートする,訓練済みのファインチューン言語モデルが目標とされてきた。
命令チューニングモデルの一般化能力に着想を得て,命令チューニングに基づく学習指標を提案する。
このアプローチをテストするために,さまざまなNLGタスクと評価基準にわたる人間の判断のデータセットであるHEAPを収集した。
実験の結果,HEAP 上でのチューニング言語モデルでは,多くの評価課題において優れた性能が得られることがわかった。
さらに、複数のタスクを共同でトレーニングすることで、さらなるパフォーマンス向上が期待できる。
関連論文リスト
- Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。
本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-24T06:53:36Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Learning Evaluation Models from Large Language Models for Sequence
Generation [44.22820310679188]
大規模言語モデルは、シーケンス生成評価において最先端のパフォーマンスを達成するが、典型的には多数のパラメータを持つ。
テキスト評価用textbfcapability textbftransfer 法である textbfECT を提案し,その評価能力を LLM から比較的軽量な言語モデルに転送する。
提案するECTに基づいて、ChatGPTから様々な評価モデルを学び、それらを報酬モデルとして利用してシーケンス生成モデルを改善する。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - Task Ambiguity in Humans and Language Models [7.033374427612259]
本稿では,あいまいな分類タスクのベンチマークであるAmbiBenchを提案する。
AmbiBench上での人間とモデルの評価は、意図したタスクがどの程度うまく認識されているかを確認することで行う。
本研究では,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法について述べる。
論文 参考訳(メタデータ) (2022-12-20T18:35:33Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。