論文の概要: ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2308.07201v1
- Date: Mon, 14 Aug 2023 15:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 12:46:51.162820
- Title: ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
- Title(参考訳): ChatEval: マルチエージェントディベートによるLCMベースの評価ツールの改善
- Authors: Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang
Zhang, Jie Fu, Zhiyuan Liu
- Abstract要約: われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
- 参考スコア(独自算出の注目度): 57.71597869337909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text evaluation has historically posed significant challenges, often
demanding substantial labor and time cost. With the emergence of large language
models (LLMs), researchers have explored LLMs' potential as alternatives for
human evaluation. While these single-agent-based approaches show promise,
experimental results suggest that further advancements are needed to bridge the
gap between their current effectiveness and human-level evaluation quality.
Recognizing that best practices of human evaluation processes often involve
multiple human annotators collaborating in the evaluation, we resort to a
multi-agent debate framework, moving beyond single-agent prompting strategies.
The multi-agent-based approach enables a group of LLMs to synergize with an
array of intelligent counterparts, harnessing their distinct capabilities and
expertise to enhance efficiency and effectiveness in handling intricate tasks.
In this paper, we construct a multi-agent referee team called ChatEval to
autonomously discuss and evaluate the quality of generated responses from
different models on open-ended questions and traditional natural language
generation (NLG) tasks. Our analysis shows that ChatEval transcends mere
textual scoring, offering a human-mimicking evaluation process for reliable
assessments. Our code is available at https://github.com/chanchimin/ChatEval.
- Abstract(参考訳): テキスト評価は歴史的に重大な課題となり、しばしばかなりの労働力と時間的コストが要求された。
大規模言語モデル (LLMs) の出現に伴い、研究者は人間の評価の代替手段として LLMs の可能性を探った。
これらの単一エージェントベースのアプローチは有望であるが、実験結果は、現在の有効性と人間レベルの評価品質のギャップを埋めるためにさらなる進歩が必要であることを示唆している。
人間の評価プロセスのベストプラクティスは、評価に複数のアノテータが協力することが多いことを認識し、我々は、単一エージェントの促進戦略を超えて、マルチエージェントの議論フレームワークを利用する。
マルチエージェントベースのアプローチにより、llmのグループは、異なる能力と専門知識を活用して、複雑なタスクの処理における効率と効率を高めることができる。
本稿では,オープンエンド質問や従来の自然言語生成(NLG)タスクにおいて,異なるモデルから生成した応答の質を自律的に議論し,評価するために,ChatEvalと呼ばれるマルチエージェントレフェリーチームを構築した。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
私たちのコードはhttps://github.com/chanchimin/ChatEval.comから入手可能です。
関連論文リスト
- Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop [44.51779041553597]
大規模言語モデルは、ヒューマンリソース(HR)のサポートを含む、日常的で反復的なタスクに応用されている。
我々は、従業員の質問に対処するための効率的かつ効果的なツールとして、人事支援チャットボットを開発した。
実験と評価の結果,GPT-4は他のモデルよりも優れており,データの矛盾を克服できることがわかった。
専門家分析により、G-Evalなどの基準フリー評価指標を推定し、信頼性が人間の評価と密接に一致していることを示す。
論文 参考訳(メタデータ) (2024-07-08T13:32:14Z) - Evaluating the Performance of Large Language Models via Debates [43.40134389150456]
大規模言語モデル(LLM)は急速に進化し、様々な分野に影響を与えています。
パフォーマンス評価の現在のほとんどのアプローチは、固定されたドメイン固有の質問に基づいているか、あるいは人間の入力に依存している。
本稿では,LLM間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、議論的推論や矛盾認識といったスキルも評価する。
論文 参考訳(メタデータ) (2024-06-16T19:02:31Z) - The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches [0.0]
本稿では,LLMに基づく評価と人間の評価との関連性について論じる。
本稿では,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を提案する。
その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるか, より優れた洞察をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-06-05T14:55:10Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。
フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。
エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-16T09:41:12Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。