論文の概要: Shepherd: A Critic for Language Model Generation
- arxiv url: http://arxiv.org/abs/2308.04592v1
- Date: Tue, 8 Aug 2023 21:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:49:25.171861
- Title: Shepherd: A Critic for Language Model Generation
- Title(参考訳): shepherd: 言語モデル生成に対する批判
- Authors: Tianlu Wang, Ping Yu, Xiaoqing Ellen Tan, Sean O'Brien, Ramakanth
Pasunuru, Jane Dwivedi-Yu, Olga Golovneva, Luke Zettlemoyer, Maryam
Fazel-Zarandi, Asli Celikyilmaz
- Abstract要約: Shepherdは、応答を批判し、改善を提案するために特別に調整された言語モデルである。
このアプローチのコアとなるのは、コミュニティからのフィードバックと人間のアノテーションからキュレートした、高品質なフィードバックデータセットです。
人間の評価では、Shepherdは他のモデルを厳密に上回り、ChatGPTと密接な関係にある。
- 参考スコア(独自算出の注目度): 72.24142023628694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models improve, there is increasing interest in techniques
that leverage these models' capabilities to refine their own outputs. In this
work, we introduce Shepherd, a language model specifically tuned to critique
responses and suggest refinements, extending beyond the capabilities of an
untuned model to identify diverse errors and provide suggestions to remedy
them. At the core of our approach is a high quality feedback dataset, which we
curate from community feedback and human annotations. Even though Shepherd is
small (7B parameters), its critiques are either equivalent or preferred to
those from established models including ChatGPT. Using GPT-4 for evaluation,
Shepherd reaches an average win-rate of 53-87% compared to competitive
alternatives. In human evaluation, Shepherd strictly outperforms other models
and on average closely ties with ChatGPT.
- Abstract(参考訳): 大きな言語モデルの改善に伴い、これらのモデルの能力を活用して独自の出力を洗練する技術への関心が高まっている。
本研究では,応答を批判し,改良を提案する言語モデルとして,多種多様なエラーを識別し,修正を提案する未調整モデルの能力を超えて拡張する。
私たちのアプローチの中核は高品質なフィードバックデータセットで、コミュニティのフィードバックとヒューマンアノテーションからキュレートしています。
Shepherd は小さい (7B パラメータ) が、その批判は ChatGPT などの確立したモデルと同等か好まれる。
GPT-4による評価では、シェパードの平均勝利率は53-87%である。
人間の評価では、Shepherdは他のモデルを厳密に上回り、ChatGPTと密接な関係にある。
関連論文リスト
- CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - RL4F: Generating Natural Language Feedback with Reinforcement Learning
for Repairing Model Outputs [27.777809444120827]
以前の作業では、アウトプットを修復する際のガイドとして、自然言語フィードバックを備えた言語モデルの提供が提案されていた。
我々は,GPT-3のエンドタスク性能を最大化するために,批判生成を訓練するマルチエージェント協調フレームワークRL4Fを紹介する。
複数のテキスト類似度指標の相対的な改善は、他の学習、検索強化、あるいはプロンプトに基づく批判ジェネレータと比べて最大10%向上する。
論文 参考訳(メタデータ) (2023-05-15T17:57:16Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。