論文の概要: LLMCRIT: Teaching Large Language Models to Use Criteria
- arxiv url: http://arxiv.org/abs/2403.01069v1
- Date: Sat, 2 Mar 2024 02:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:29:34.469730
- Title: LLMCRIT: Teaching Large Language Models to Use Criteria
- Title(参考訳): llmcrit: 大きな言語モデルに基準の使用を教える
- Authors: Weizhe Yuan and Pengfei Liu and Matthias Gall\'e
- Abstract要約: 本稿では,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるフレームワークを提案する。
特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。
その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。
- 参考スコア(独自算出の注目度): 43.52703984193145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans follow criteria when they execute tasks, and these criteria are
directly used to assess the quality of task completion. Therefore, having
models learn to use criteria to provide feedback can help humans or models to
perform tasks better. However, existing research in this field tends to
consider only a limited set of criteria or quality assessment aspects. To fill
this gap, we propose a general framework that enables large language models
(LLMs) to use comprehensive criteria for a task in delivering natural language
feedback on task execution. In particular, we present a model-in-the-loop
framework that semi-automatically derives criteria from collected guidelines
for different writing tasks and constructs in-context demonstrations for each
criterion. We choose three tasks from real-world scenarios to operationalize
this idea: paper introduction writing, Python code writing, and Reddit post
writing, and evaluate our feedback generation framework using different LLMs.
The results reveal the fine-grained effects of incorporating criteria and
demonstrations and provide valuable insights on how to teach LLMs to use
criteria more effectively.
- Abstract(参考訳): 人間はタスクの実行時に基準に従い、これらの基準はタスク完了の質を評価するために直接使用される。
したがって、モデルにフィードバックを提供するための基準を学習させることは、人間やモデルがタスクをより良く実行するのに役立つ。
しかしながら、この分野の既存の研究は、限られた基準や品質評価の側面のみを考慮しがちである。
このギャップを埋めるために,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるような汎用フレームワークを提案する。
特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。
私たちは、実世界のシナリオから3つのタスクを選択して、このアイデアを運用します。ペーパー入門ライティング、pythonコードライティング、reddit投稿ライティングです。
その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。
関連論文リスト
- Meta-Task Prompting Elicits Embedding from Large Language Models [57.50329659098592]
本稿では,新しい教師なし埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを提案する。
モデル微調整やタスク固有のエンジニアリングを必要とせずに、大規模言語モデルから高品質な文の埋め込みを生成する。
実験により, 各種メタタスクから平均化された埋め込みは, セマンティックテキスト類似度ベンチマーク上での競合性能を示すことを示した。
本研究は, 埋込抽出のための多用途, 資源効率のよい手法を提供する, 埋込生成のための新しいスケーリング法則を示唆する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。
最適な性能を達成するには、特別に設計されたプロンプト法が必要である。
本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文 参考訳(メタデータ) (2024-02-28T11:29:09Z) - Benchmarking Generation and Evaluation Capabilities of Large Language
Models for Instruction Controllable Summarization [136.18825814573208]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Fully Automated Task Management for Generation, Execution, and
Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language
Instructions in Continuous Space [1.2691047660244337]
本稿では,視覚情報に基づくタスク実行を実現するためのフレームワークを開発することを目的とする。
本稿では,FCOGタスクの生成,実行,評価の完全自動化のためのフレームワークを提案する。
さらに、FCOGタスクを4つの異なるサブタスクに分割することで、FCOGタスクを解決する方法を提案する。
論文 参考訳(メタデータ) (2023-11-07T15:38:09Z) - Automatic Evaluation of Generative Models with Instruction Tuning [14.369719297698694]
特定の課題に対する人間の判断と評価基準をエミュレートするための,近年のパラダイムファインチューン事前訓練言語モデルについて検討した。
命令チューニングモデルの一般化能力に着想を得て,命令チューニングに基づく学習指標を提案する。
論文 参考訳(メタデータ) (2023-10-30T23:00:52Z) - EvalLM: Interactive Evaluation of Large Language Model Prompts on
User-Defined Criteria [43.944632774725484]
本稿では,ユーザ定義基準に基づいて複数の出力を評価することで,プロンプトを反復的に精錬するインタラクティブシステムであるEvalLMを提案する。
自然言語の基準を記述することで、ユーザはシステムのLCMベースの評価器を使って、どのプロンプトがエキサイティングか、失敗かを概観することができる。
比較研究では、EvalLMは手動による評価と比較して、参加者がより多様な基準を策定し、アウトプットの2倍を検査し、59%のリビジョンで満足なプロンプトに達するのに役立った。
論文 参考訳(メタデータ) (2023-09-24T13:19:38Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。