論文の概要: Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus
- arxiv url: http://arxiv.org/abs/2406.08598v1
- Date: Wed, 12 Jun 2024 19:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 22:17:23.728807
- Title: Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus
- Title(参考訳): 言語モデル協議会:コンセンサスによる高主観的課題に関する基礎モデルのベンチマーク
- Authors: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry,
- Abstract要約: Arenaのようなリーダーボードは、反応が人間の好みとどのように一致しているかに基づいて、Large Language Models (LLM)をランク付けする。
新たなベンチマークフレームワークであるLanguage Model Council(LMC)を提案する。
LMCは、1)平等な参加を通じてテストセットを定式化し、2)委員会メンバー間でテストを管理し、3)集団審査員として反応を評価するという民主的なプロセスを通して運営されている。
- 参考スコア(独自算出の注目度): 3.8436076642278754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) necessitates robust and challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how well their responses align with human preferences. However, many tasks such as those related to emotional intelligence, creative writing, or persuasiveness, are highly subjective and often lack majoritarian human agreement. Judges may have irreconcilable disagreements about what constitutes a better response. To address the challenge of ranking LLMs on highly subjective tasks, we propose a novel benchmarking framework, the Language Model Council (LMC). The LMC operates through a democratic process to: 1) formulate a test set through equal participation, 2) administer the test among council members, and 3) evaluate responses as a collective jury. We deploy a council of 20 newest LLMs on an open-ended emotional intelligence task: responding to interpersonal dilemmas. Our results show that the LMC produces rankings that are more separable, robust, and less biased than those from any individual LLM judge, and is more consistent with a human-established leaderboard compared to other benchmarks.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、堅牢で困難なベンチマークを必要とする。
Chatbot Arenaのようなリーダーボードは、その反応が人間の好みとどのように一致しているかに基づいてLCMをランク付けする。
しかし、感情的な知性、創造的な文章、説得力にまつわる多くのタスクは、非常に主観的であり、しばしば主要な人的合意を欠いている。
裁判官は、より良い反応を構成するものについて、違和感のない意見の相違があるかもしれない。
高い主観的タスクにおいてLLMをランク付けすることの課題に対処するために,新しいベンチマークフレームワークであるLanguage Model Council(LMC)を提案する。
LMCは民主的なプロセスを通じて運営している。
1) 等参加による試験を定式化する。
2 評議員による試験の実施、及び
3) 集合審査員として回答を評価する。
我々は、対人ジレンマに反応するオープンな感情情報タスクに、20の新たなLSMの協議会を配置する。
以上の結果から,LCCは個々のLCM審査員よりも分離性,堅牢性,バイアスの少ないランキングを生成し,他のベンチマークと比較すると,人為的なリーダーボードとの整合性が高いことが示された。
関連論文リスト
- The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-a-judge"パラダイムでは、人間が伝統的に行ってきたタスクにおいて、アノテータや評価役としてLarge Language Modelsを採用している。
研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。
LLMアノテーションの使用を正当化するためには、アノテーション付き例の控えめなサブセットだけを必要とする新しい統計手順である代替アノテーションテスト(alt-test)を提案する。
論文 参考訳(メタデータ) (2025-01-19T07:09:11Z) - Observing Micromotives and Macrobehavior of Large Language Models [14.649811719084505]
大規模言語モデルのマイクロモーティブとマクロビヘイビアの関係を観察するために,シェリングの分離モデルに従う。
以上の結果から, LLMの偏見によらず, より多くの人々がLSMの提言に従えば, 高度に分離された社会が生まれることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T23:25:14Z) - LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods [21.601196380989542]
「LLMs-as-judges」は自然言語応答に基づく評価器である。
本稿では,5つの重要な視点から'LLMs-as-judges'パラダイムを包括的に調査する。
我々は,研究と実践の両方において,'LLMs-as-judges'の開発と適用に関する洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T08:07:24Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。