論文の概要: Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform
- arxiv url: http://arxiv.org/abs/2403.08305v1
- Date: Wed, 13 Mar 2024 07:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:16:06.167136
- Title: Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform
- Title(参考訳): Anを用いた大規模言語モデルのパーソナライズド評価に向けて
匿名のクラウドソーシングプラットフォーム
- Authors: Mingyue Cheng, Hao Zhang, Jiqian Yang, Qi Liu, Li Li, Xin Huang, Liwei
Song, Zhi Li, Zhenya Huang, Enhong Chen
- Abstract要約: 大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
- 参考スコア(独自算出の注目度): 64.76104135495576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model evaluation plays a pivotal role in the enhancement of
its capacity. Previously, numerous methods for evaluating large language models
have been proposed in this area. Despite their effectiveness, these existing
works mainly focus on assessing objective questions, overlooking the capability
to evaluate subjective questions which is extremely common for large language
models. Additionally, these methods predominantly utilize centralized datasets
for evaluation, with question banks concentrated within the evaluation
platforms themselves. Moreover, the evaluation processes employed by these
platforms often overlook personalized factors, neglecting to consider the
individual characteristics of both the evaluators and the models being
evaluated. To address these limitations, we propose a novel anonymous
crowd-sourcing evaluation platform, BingJian, for large language models that
employs a competitive scoring mechanism where users participate in ranking
models based on their performance. This platform stands out not only for its
support of centralized evaluations to assess the general capabilities of models
but also for offering an open evaluation gateway. Through this gateway, users
have the opportunity to submit their questions, testing the models on a
personalized and potentially broader range of capabilities. Furthermore, our
platform introduces personalized evaluation scenarios, leveraging various forms
of human-computer interaction to assess large language models in a manner that
accounts for individual user preferences and contexts. The demonstration of
BingJian can be accessed at https://github.com/Mingyue-Cheng/Bingjian.
- Abstract(参考訳): 大規模言語モデル評価は,その能力向上において重要な役割を担っている。
これまで,この領域で大規模言語モデルを評価するための多くの手法が提案されてきた。
それらの効果にもかかわらず、これらの既存の研究は主に客観的な質問を評価することに焦点を当てており、大きな言語モデルで非常に一般的な主観的な質問を評価する能力を見越している。
さらに、これらの手法は、評価プラットフォーム自体に集中して、集中的なデータセットを主に評価に活用する。
さらに、これらのプラットフォームが採用する評価プロセスはパーソナライズされた要因を無視することが多く、評価対象と評価対象モデルの両方の特徴を考慮しない。
これらの制約に対処するため,大規模言語モデルを対象とした新たな匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームは、モデルの一般的な能力を評価するための集中的な評価をサポートするだけでなく、オープンな評価ゲートウェイを提供するためにも際立っている。
このゲートウェイを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
さらに,個人の好みや文脈を考慮に入れた大規模言語モデルの評価に,人間とコンピュータのインタラクションの様々な形態を活用する,パーソナライズされた評価シナリオも導入している。
BingJianのデモはhttps://github.com/Mingyue-Cheng/Bingjian.comで見ることができる。
関連論文リスト
- PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation [0.0]
本稿では,言語モデルのロールプレイング能力を評価するための新しいベンチマークを提案する。
このフレームワークは、特定のキャラクターロールを仮定するプレイヤーモデル、ユーザの振る舞いをシミュレートするインタクタモデル、会話の品質を評価する判断モデルという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-10T19:00:44Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Which Prompts Make The Difference? Data Prioritization For Efficient
Human LLM Evaluation [9.452326973655445]
計量に基づく手法は,必要なアノテーションの数を最小化することで,人間の評価の効率を向上させる。
提案手法は,広く用いられているモデルファミリに対して有効であり,非決定的(あるいは"tie")な結果のインスタンスを最大54%削減できることを示す。
この人的努力の潜在的な削減は、我々のアプローチを将来の大規模言語モデル評価における貴重な戦略として位置づけている。
論文 参考訳(メタデータ) (2023-10-22T21:48:51Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Dialectical language model evaluation: An initial appraisal of the
commonsense spatial reasoning abilities of LLMs [10.453404263936335]
本稿では,コモンセンス推論のための言語モデルの弁証的評価について検討する。
この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。
本稿では,空間的推論の特定の場合に対して,このような評価を定性的に検討する。
論文 参考訳(メタデータ) (2023-04-22T06:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。