論文の概要: HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants
- arxiv url: http://arxiv.org/abs/2405.09186v1
- Date: Wed, 15 May 2024 08:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 13:56:07.879405
- Title: HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants
- Title(参考訳): HumanRankEval:会話アシスタントとしてのLMの自動評価
- Authors: Milan Gritta, Gerasimos Lampouras, Ignacio Iacobacci,
- Abstract要約: 本稿では,HumanRankEvalという新しい自動評価タスクを提案する。
大規模で多様で高品質な質問セットで構成されており、それぞれが人間によって書かれたいくつかの回答がある。
HREは人間の判断とよく相関し,特に指導指導後のモデル変化に応答することを示す。
- 参考スコア(独自算出の注目度): 16.932009464531742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) as conversational assistants recently became popular tools that help people accomplish a variety of tasks. These typically result from adapting LMs pretrained on general domain text sequences through further instruction-tuning and possibly preference optimisation methods. The evaluation of such LMs would ideally be performed using human judgement, however, this is not scalable. On the other hand, automatic evaluation featuring auxiliary LMs as judges and/or knowledge-based tasks is scalable but struggles with assessing conversational ability and adherence to instructions. To help accelerate the development of LMs as conversational assistants, we propose a novel automatic evaluation task: HumanRankEval (HRE). It consists of a large-scale, diverse and high-quality set of questions, each with several answers authored and scored by humans. To perform evaluation, HRE ranks these answers based on their log-likelihood under the LM's distribution, and subsequently calculates their correlation with the corresponding human rankings. We support HRE's efficacy by investigating how efficiently it separates pretrained and instruction-tuned LMs of various sizes. We show that HRE correlates well with human judgements and is particularly responsive to model changes following instruction-tuning.
- Abstract(参考訳): 会話アシスタントとしての言語モデル(LM)は、最近、人々が様々なタスクを達成するのに役立つ人気のあるツールになった。
これらは典型的には、一般的なドメインのテキストシーケンスに事前訓練されたLMを適用することによって、さらなる命令チューニングとおそらくは選好最適化手法によって生じる。
このようなLMの評価は人間の判断で行うのが理想であるが、これはスケーラブルではない。
一方、判断や知識に基づくタスクとして補助的なLMを特徴とする自動評価はスケーラブルであるが、会話能力の評価や指示の遵守に苦慮している。
会話アシスタントとしてのLMの開発を促進するために,HumanRankEval (HRE) という新しい自動評価タスクを提案する。
大規模で多様で高品質な質問セットで構成されており、それぞれが人間によって書かれたいくつかの回答がある。
評価を行うために、HREはこれらの回答をLMの分布に基づいてログライクな状態に基づいてランク付けし、その後、対応するヒトのランキングとの相関を計算する。
我々は,HREの有効性を,様々なサイズの事前学習と指導訓練によるLMの分離をいかに効率的に行うかを調べることで支援する。
HREは人間の判断とよく相関し,特に指導指導後のモデル変化に応答することを示す。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - The Future of Learning in the Age of Generative AI: Automated Question Generation and Assessment with Large Language Models [0.0]
大規模言語モデル(LLM)と生成AIは、自然言語処理(NLP)に革命をもたらした。
本章では,自動質問生成と回答評価におけるLLMの変容の可能性について考察する。
論文 参考訳(メタデータ) (2024-10-12T15:54:53Z) - IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。
また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。
本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文 参考訳(メタデータ) (2024-08-24T10:34:20Z) - Psychometric Alignment: Capturing Human Knowledge Distributions via Language Models [41.324679754114165]
言語モデル(LM)は、人口の振る舞いを正確に模倣することで意思決定を導くシナリオにおいて、人間のような反応をシミュレートするためにますます使われる。
本研究では,人間の知識分布の程度を計測する指標である「心理学的アライメント」を導入する。
人格に基づくプロンプトを用いることでアライメントが向上するが, LMとヒトの集団の間には重大な不一致が生じる。
論文 参考訳(メタデータ) (2024-07-22T14:02:59Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。