論文の概要: A User-Centric Benchmark for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2404.13940v1
- Date: Mon, 22 Apr 2024 07:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:55:25.834389
- Title: A User-Centric Benchmark for Evaluating Large Language Models
- Title(参考訳): 大規模言語モデル評価のためのユーザ中心ベンチマーク
- Authors: Jiayin Wang, Fengran Mo, Weizhi Ma, Peijie Sun, Min Zhang, Jian-Yun Nie,
- Abstract要約: 大きな言語モデル(LLM)は、異なるタスクでユーザと協調するために必要なツールである。
実際のユーザによるLLMの利用を意図したベンチマークはほとんどない。
ユーザニーズを満たす上での有効性について10のLCMサービスをベンチマークする。
- 参考スコア(独自算出の注目度): 39.538411572029005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are essential tools to collaborate with users on different tasks. Evaluating their performance to serve users' needs in real-world scenarios is important. While many benchmarks have been created, they mainly focus on specific predefined model abilities. Few have covered the intended utilization of LLMs by real users. To address this oversight, we propose benchmarking LLMs from a user perspective in both dataset construction and evaluation designs. We first collect 1863 real-world use cases with 15 LLMs from a user study with 712 participants from 23 countries. These self-reported cases form the User Reported Scenarios(URS) dataset with a categorization of 7 user intents. Secondly, on this authentic multi-cultural dataset, we benchmark 10 LLM services on their efficacy in satisfying user needs. Thirdly, we show that our benchmark scores align well with user-reported experience in LLM interactions across diverse intents, both of which emphasize the overlook of subjective scenarios. In conclusion, our study proposes to benchmark LLMs from a user-centric perspective, aiming to facilitate evaluations that better reflect real user needs. The benchmark dataset and code are available at https://github.com/Alice1998/URS.
- Abstract(参考訳): 大きな言語モデル(LLM)は、異なるタスクでユーザと協調するために必要なツールである。
実際のシナリオにおいて、ユーザのニーズを満たすためにパフォーマンスを評価することが重要です。
多くのベンチマークが作成されているが、主に定義された特定のモデル能力に焦点を当てている。
実際のユーザによる LLM の利用を意図した例はほとんどない。
そこで本研究では,データセット構築と評価設計の両方において,ユーザの視点からLCMをベンチマークする手法を提案する。
まず,23カ国712人を対象に,15 LLMで1863件の実世界のユースケースをユーザスタディから収集した。
これらの自己報告されたケースは、7つのユーザの意図を分類したUser Reported Scenarios(URS)データセットを構成する。
第2に、この認証されたマルチカルチャーデータセットにおいて、ユーザニーズを満たすための有効性について、10のLCMサービスをベンチマークする。
第3に、我々のベンチマークスコアは、多様な意図にまたがるLLMインタラクションにおけるユーザ報告された経験とよく一致していることを示し、どちらも主観的なシナリオの見落としを強調している。
本研究は,実際のユーザニーズを反映した評価を促進することを目的として,ユーザ中心の観点からLCMをベンチマークすることを提案する。
ベンチマークデータセットとコードはhttps://github.com/Alice1998/URSで公開されている。
関連論文リスト
- Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Are Large Language Models In-Context Personalized Summarizers? Get an iCOPERNICUS Test Done! [14.231110627461]
大規模言語モデル(LLM)は、ICL(In-Context-Learning)に基づく要約においてかなり成功した。
本稿では, EGISES を比較尺度として用いた, LLM における要約能力の新規なIn-COntext personalization learNIng sCrUtinyを提案する。
報告したICLの性能に基づいて17の最先端LCMを評価し,よりリッチなプロンプトで探索すると15モデルのICPLが劣化することを示した。
論文 参考訳(メタデータ) (2024-09-30T18:45:00Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z) - METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。
要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文 参考訳(メタデータ) (2024-04-02T06:14:54Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Do LLMs Understand User Preferences? Evaluating LLMs On User Rating
Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。
我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文 参考訳(メタデータ) (2023-05-10T21:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。