Fugu-MT 論文翻訳(概要): MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation

論文の概要: MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation

arxiv url: http://arxiv.org/abs/2403.19305v1
Date: Thu, 28 Mar 2024 10:41:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 16:33:46.168504
Title: MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation
Title（参考訳）: MATEval: オープンなテキスト評価を改善するためのマルチエージェントの議論フレームワーク
Authors: Yu Li, Shenyu Zhang, Rui Wu, Xiutian Huang, Yongrui Chen, Wenhao Xu, Guilin Qi, Dehai Min,
Abstract要約: 生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: "Multi-Agent Text Evaluation framework"を提案する。本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
参考スコア（独自算出の注目度）: 22.19073789961769
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in generative Large Language Models(LLMs) have been remarkable, however, the quality of the text generated by these models often reveals persistent issues. Evaluating the quality of text generated by these models, especially in open-ended text, has consistently presented a significant challenge. Addressing this, recent work has explored the possibility of using LLMs as evaluators. While using a single LLM as an evaluation agent shows potential, it is filled with significant uncertainty and instability. To address these issues, we propose the MATEval: A "Multi-Agent Text Evaluation framework" where all agents are played by LLMs like GPT-4. The MATEval framework emulates human collaborative discussion methods, integrating multiple agents' interactions to evaluate open-ended text. Our framework incorporates self-reflection and Chain-of-Thought (CoT) strategies, along with feedback mechanisms, enhancing the depth and breadth of the evaluation process and guiding discussions towards consensus, while the framework generates comprehensive evaluation reports, including error localization, error types and scoring. Experimental results show that our framework outperforms existing open-ended text evaluation methods and achieves the highest correlation with human evaluation, which confirms the effectiveness and advancement of our framework in addressing the uncertainties and instabilities in evaluating LLMs-generated text. Furthermore, our framework significantly improves the efficiency of text evaluation and model iteration in industrial scenarios.
Abstract（参考訳）: ジェネレーティブ・Large Language Models(LLM)の最近の進歩は目覚ましいが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。これらのモデルによって生成されるテキストの品質を評価することは、特にオープンエンドテキストにおいて、一貫して重要な課題を提示してきた。この問題に対処するため、近年の研究では、LCMを評価対象として活用する可能性について検討している。単一のLCMを評価剤として使用するとポテンシャルを示すが、かなりの不確実性と不安定性に満ちている。 GPT-4 のような LLM によって全てのエージェントを再生する "マルチエージェントテキスト評価フレームワーク" を提案する。 MATEvalフレームワークは、複数のエージェントのインタラクションを統合してオープンなテキストを評価する、人間の協調的な議論手法をエミュレートする。本フレームワークは,自己回帰とCoT(Chain-of-Thought)戦略,フィードバック機構,評価プロセスの深度と広さの向上,コンセンサスに向けた議論の導出,エラーローカライゼーションやエラータイプ,スコアリングなどの総合的な評価レポートを生成する。実験結果から,本フレームワークは既存のオープンエンドテキスト評価手法よりも優れており,LLMのテキスト評価における不確実性や不安定性に対処する上で,人間の評価と高い相関性が得られることが明らかとなった。さらに,本フレームワークは,産業シナリオにおけるテキスト評価とモデル反復の効率を大幅に向上させる。

関連論文リスト

AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。 6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。 SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文参考訳（メタデータ） (2025-08-29T08:05:00Z)
Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T16:39:41Z)
WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文参考訳（メタデータ） (2025-03-07T08:56:20Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文参考訳（メタデータ） (2024-12-24T08:53:54Z)
On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation [8.672875654352689]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。本稿では,現在の評価ベンチマークを批判的に検討し,従来の応答生成器の使用と品質面が,現代のチャットボットの機能を正確に反映できないことを強調した。
論文参考訳（メタデータ） (2024-07-04T11:14:47Z)
DEBATE: Devil's Advocate-Based Assessment and Text Evaluation [6.2689399557794525]
マルチエージェントスコアリングシステムに基づくNLG評価フレームワークであるDEBATEを提案する。フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示される。エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-05-16T09:41:12Z)
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。 FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文参考訳（メタデータ） (2024-04-09T04:17:51Z)
Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation [19.203357915782252]
本フレームワークは,意味表現学習の強化を目的としたゲーティング機構を通じて,AMRグラフ情報を統合する。本フレームワークは,複数のデータセットにまたがる人間の判断と強い相関関係を達成し,対話評価のための新たなベンチマークを確立する。
論文参考訳（メタデータ） (2024-04-01T14:11:45Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文参考訳（メタデータ） (2024-01-26T18:12:25Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。