論文の概要: Evaluating the Performance of Large Language Models via Debates
- arxiv url: http://arxiv.org/abs/2406.11044v1
- Date: Sun, 16 Jun 2024 19:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:13:27.066277
- Title: Evaluating the Performance of Large Language Models via Debates
- Title(参考訳): ディベートによる大規模言語モデルの性能評価
- Authors: Behrad Moniri, Hamed Hassani, Edgar Dobriban,
- Abstract要約: 大規模言語モデル(LLM)間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、問題定義や矛盾認識といったスキルも評価する。
議論フレームワークを用いて様々な最先端LCMの性能を評価し,人間の入力に基づく人気ランキングと密接に一致したランキングを達成した。
- 参考スコア(独自算出の注目度): 43.40134389150456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are rapidly evolving and impacting various fields, necessitating the development of effective methods to evaluate and compare their performance. Most current approaches for performance evaluation are either based on fixed, domain-specific questions that lack the flexibility required in many real-world applications where tasks are not always from a single domain, or rely on human input, making them unscalable. We propose an automated benchmarking framework based on debates between LLMs, judged by another LLM. This method assesses not only domain knowledge, but also skills such as problem definition and inconsistency recognition. We evaluate the performance of various state-of-the-art LLMs using the debate framework and achieve rankings that align closely with popular rankings based on human input, eliminating the need for costly human crowdsourcing.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進化し、様々な分野に影響を与える。
現在のパフォーマンス評価のためのほとんどのアプローチは、特定のドメイン固有の質問に基づいており、それは、タスクが常に単一のドメインからではなく、人間の入力に依存している多くの実世界のアプリケーションで必要とされる柔軟性に欠ける。
本稿では,LLM間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、問題定義や矛盾認識といったスキルも評価する。
議論フレームワークを用いて様々な最先端LCMの性能を評価し,人的インプットに基づく人気ランキングと密接に整合したランキングを達成し,コストのかかる人的クラウドソーシングの必要性を排除した。
関連論文リスト
- Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。
本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文 参考訳(メタデータ) (2024-05-24T20:32:49Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [44.401826163314716]
本稿では,強力なMLLMを裁判官として用いたMLLMの新たな評価パラダイムを提案する。
我々は,MLLMをペアワイズ方式でベンチマークし,モデル間での多彩な性能を示す。
我々のベンチマークの妥当性は、人間の評価と88.02%の合意に達したことを示している。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear
Domain [0.0]
NuclearQAは、核領域における言語モデルを評価するための100の質問の人為的なベンチマークである。
さまざまな種類の質問が混ざり合わさって、我々のベンチマークが核領域のモデルを評価することをユニークなものにしていることを示す。
論文 参考訳(メタデータ) (2023-10-17T01:27:20Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。