論文の概要: LLMCRIT: Teaching Large Language Models to Use Criteria
- arxiv url: http://arxiv.org/abs/2403.01069v1
- Date: Sat, 2 Mar 2024 02:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:29:34.469730
- Title: LLMCRIT: Teaching Large Language Models to Use Criteria
- Title(参考訳): llmcrit: 大きな言語モデルに基準の使用を教える
- Authors: Weizhe Yuan and Pengfei Liu and Matthias Gall\'e
- Abstract要約: 本稿では,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるフレームワークを提案する。
特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。
その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。
- 参考スコア(独自算出の注目度): 43.52703984193145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans follow criteria when they execute tasks, and these criteria are
directly used to assess the quality of task completion. Therefore, having
models learn to use criteria to provide feedback can help humans or models to
perform tasks better. However, existing research in this field tends to
consider only a limited set of criteria or quality assessment aspects. To fill
this gap, we propose a general framework that enables large language models
(LLMs) to use comprehensive criteria for a task in delivering natural language
feedback on task execution. In particular, we present a model-in-the-loop
framework that semi-automatically derives criteria from collected guidelines
for different writing tasks and constructs in-context demonstrations for each
criterion. We choose three tasks from real-world scenarios to operationalize
this idea: paper introduction writing, Python code writing, and Reddit post
writing, and evaluate our feedback generation framework using different LLMs.
The results reveal the fine-grained effects of incorporating criteria and
demonstrations and provide valuable insights on how to teach LLMs to use
criteria more effectively.
- Abstract(参考訳): 人間はタスクの実行時に基準に従い、これらの基準はタスク完了の質を評価するために直接使用される。
したがって、モデルにフィードバックを提供するための基準を学習させることは、人間やモデルがタスクをより良く実行するのに役立つ。
しかしながら、この分野の既存の研究は、限られた基準や品質評価の側面のみを考慮しがちである。
このギャップを埋めるために,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるような汎用フレームワークを提案する。
特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。
私たちは、実世界のシナリオから3つのタスクを選択して、このアイデアを運用します。ペーパー入門ライティング、pythonコードライティング、reddit投稿ライティングです。
その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。
関連論文リスト
- Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries [33.39343288446156]
本稿では,人間に解釈可能な,特定のスキルやトピックに対するモデル行動の自然言語要約であるレポートカードを提案する。
本研究は,3つの基準に基づいてレポートカードの評価を行う枠組みを開発する。 特異性(モデル区別能力),忠実性(モデル能力の正確な表現),解釈可能性(人間への明瞭さと妥当性)である。
論文 参考訳(メタデータ) (2024-09-01T21:18:14Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。
質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。
ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文 参考訳(メタデータ) (2024-04-18T15:45:27Z) - Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。
最適な性能を達成するには、特別に設計されたプロンプト法が必要である。
本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文 参考訳(メタデータ) (2024-02-28T11:29:09Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。