論文の概要: Evaluating the Performance of Large Language Models via Debates
- arxiv url: http://arxiv.org/abs/2406.11044v1
- Date: Sun, 16 Jun 2024 19:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:13:27.066277
- Title: Evaluating the Performance of Large Language Models via Debates
- Title(参考訳): ディベートによる大規模言語モデルの性能評価
- Authors: Behrad Moniri, Hamed Hassani, Edgar Dobriban,
- Abstract要約: 大規模言語モデル(LLM)間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、問題定義や矛盾認識といったスキルも評価する。
議論フレームワークを用いて様々な最先端LCMの性能を評価し,人間の入力に基づく人気ランキングと密接に一致したランキングを達成した。
- 参考スコア(独自算出の注目度): 43.40134389150456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are rapidly evolving and impacting various fields, necessitating the development of effective methods to evaluate and compare their performance. Most current approaches for performance evaluation are either based on fixed, domain-specific questions that lack the flexibility required in many real-world applications where tasks are not always from a single domain, or rely on human input, making them unscalable. We propose an automated benchmarking framework based on debates between LLMs, judged by another LLM. This method assesses not only domain knowledge, but also skills such as problem definition and inconsistency recognition. We evaluate the performance of various state-of-the-art LLMs using the debate framework and achieve rankings that align closely with popular rankings based on human input, eliminating the need for costly human crowdsourcing.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進化し、様々な分野に影響を与える。
現在のパフォーマンス評価のためのほとんどのアプローチは、特定のドメイン固有の質問に基づいており、それは、タスクが常に単一のドメインからではなく、人間の入力に依存している多くの実世界のアプリケーションで必要とされる柔軟性に欠ける。
本稿では,LLM間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、問題定義や矛盾認識といったスキルも評価する。
議論フレームワークを用いて様々な最先端LCMの性能を評価し,人的インプットに基づく人気ランキングと密接に整合したランキングを達成し,コストのかかる人的クラウドソーシングの必要性を排除した。
関連論文リスト
- Line Goes Up? Inherent Limitations of Benchmarks for Evaluating Large Language Models [0.0]
私は、ベンチマークのパラダイムに固有の制限が、認知タスクに対する一般的な能力の指標として、ベンチマークのパフォーマンスを非常に適さないと論じます。
総合LLM認知能力の信頼性指標としてベンチマーク性能を用いるべきではないと結論づける。
論文 参考訳(メタデータ) (2025-02-20T07:13:29Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。