論文の概要: What is the best model? Application-driven Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10307v1
- Date: Fri, 14 Jun 2024 04:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:01:54.729280
- Title: What is the best model? Application-driven Evaluation for Large Language Models
- Title(参考訳): ベストモデルとは何か? 大規模言語モデルのアプリケーション駆動評価
- Authors: Shiguo Lian, Kaikai Zhao, Xinhui Liu, Xuejiao Lei, Bikun Yang, Wenjing Zhang, Kai Wang, Zhaoxiang Liu,
- Abstract要約: A-Evalは、一般的な大規模言語モデルのアプリケーション駆動評価ベンチマークである。
我々は,678組の質問・回答ペアからなるデータセットを,アノテート・アノテート・レビューのプロセスを通じて構築する。
モデルスケールと課題難易度に関する興味深い法則を明らかにし、最適なモデルを選択するための実現可能な方法を提案する。
- 参考スコア(独自算出の注目度): 7.054112690519648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General large language models enhanced with supervised fine-tuning and reinforcement learning from human feedback are increasingly popular in academia and industry as they generalize foundation models to various practical tasks in a prompt manner. To assist users in selecting the best model in practical application scenarios, i.e., choosing the model that meets the application requirements while minimizing cost, we introduce A-Eval, an application-driven LLMs evaluation benchmark for general large language models. First, we categorize evaluation tasks into five main categories and 27 sub-categories from a practical application perspective. Next, we construct a dataset comprising 678 question-and-answer pairs through a process of collecting, annotating, and reviewing. Then, we design an objective and effective evaluation method and evaluate a series of LLMs of different scales on A-Eval. Finally, we reveal interesting laws regarding model scale and task difficulty level and propose a feasible method for selecting the best model. Through A-Eval, we provide clear empirical and engineer guidance for selecting the best model, reducing barriers to selecting and using LLMs and promoting their application and development. Our benchmark is publicly available at https://github.com/UnicomAI/DataSet/tree/main/TestData/GeneralAbility.
- Abstract(参考訳): 教師付き微調整と人的フィードバックからの強化学習によって強化された一般的な大規模言語モデルは、基礎モデルを様々な実践的なタスクに迅速に一般化するにつれ、学術や産業で人気が高まっている。
そこで本研究では,アプリケーション駆動型LLM評価ベンチマークであるA-Evalを導入する。
まず,評価タスクを5つの主要なカテゴリと27のサブカテゴリに分類する。
次に,678組の質問・回答ペアからなるデータセットを,アノテート・アノテート・レビューのプロセスを通じて構築する。
そこで我々は,A-Eval 上で,客観的かつ効果的な評価手法を設計し,異なるスケールの LLM のシリーズを評価する。
最後に、モデルスケールと課題難易度に関する興味深い法則を明らかにし、最適なモデルを選択するための実現可能な方法を提案する。
A-Evalを通じて、最良のモデルを選択し、LCMを選択して使用するための障壁を減らし、アプリケーションと開発を促進するための明確な経験的およびエンジニアのガイダンスを提供する。
私たちのベンチマークはhttps://github.com/UnicomAI/DataSet/tree/main/TestData/GeneralAbilityで公開されています。
関連論文リスト
- A Distributed Collaborative Retrieval Framework Excelling in All Queries and Corpora based on Zero-shot Rank-Oriented Automatic Evaluation [46.33857318525812]
分散協調検索フレームワーク(DCRF)を提案する。
様々な検索モデルを統合システムに統合し、ユーザのクエリに対して最適な結果を動的に選択する。
RankGPTやListT5のような効果的なリストワイドメソッドに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2024-12-16T14:55:57Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Multidimensional Item Response Theory in the Style of Collaborative
Filtering [0.8057006406834467]
本稿では,多次元項目応答理論(MIRT)に対する機械学習手法を提案する。
協調フィルタリングに触発されて、多くのMIRTモデルを含むモデルの一般的なクラスを定義します。
本稿では, 個人モデルとクロスバリデーションを推定し, 最適動作モデルを選択するために, ペナル化結合最大度(JML)の使用について論じる。
論文 参考訳(メタデータ) (2023-01-03T00:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。