論文の概要: Large Language Model Evaluation Via Multi AI Agents: Preliminary results
- arxiv url: http://arxiv.org/abs/2404.01023v1
- Date: Mon, 1 Apr 2024 10:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:47:02.561127
- Title: Large Language Model Evaluation Via Multi AI Agents: Preliminary results
- Title(参考訳): マルチAIエージェントを用いた大規模言語モデル評価:予備的結果
- Authors: Zeeshan Rasheed, Muhammad Waseem, Kari Systä, Pekka Abrahamsson,
- Abstract要約: 本稿では,多言語モデル(LLM)の性能評価と比較を目的とした,新しいマルチエージェントAIモデルを提案する。
我々のモデルは8つの異なるAIエージェントで構成されており、それぞれが異なる先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
- 参考スコア(独自算出の注目度): 3.8066447473175304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) have become integral to both research and daily operations, rigorous evaluation is crucial. This assessment is important not only for individual tasks but also for understanding their societal impact and potential risks. Despite extensive efforts to examine LLMs from various perspectives, there is a noticeable lack of multi-agent AI models specifically designed to evaluate the performance of different LLMs. To address this gap, we introduce a novel multi-agent AI model that aims to assess and compare the performance of various LLMs. Our model consists of eight distinct AI agents, each responsible for retrieving code based on a common description from different advanced language models, including GPT-3.5, GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Google Bard, LLAMA, and Hugging Face. Our developed model utilizes the API of each language model to retrieve code for a given high-level description. Additionally, we developed a verification agent, tasked with the critical role of evaluating the code generated by its counterparts. We integrate the HumanEval benchmark into our verification agent to assess the generated code's performance, providing insights into their respective capabilities and efficiencies. Our initial results indicate that the GPT-3.5 Turbo model's performance is comparatively better than the other models. This preliminary analysis serves as a benchmark, comparing their performances side by side. Our future goal is to enhance the evaluation process by incorporating the Massively Multitask Benchmark for Python (MBPP) benchmark, which is expected to further refine our assessment. Additionally, we plan to share our developed model with twenty practitioners from various backgrounds to test our model and collect their feedback for further improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)は,研究と日々の業務の両方に不可欠なものになっているため,厳密な評価が不可欠である。
この評価は、個々のタスクだけでなく、社会的影響や潜在的なリスクを理解する上でも重要である。
様々な観点からLLMを検証しようとする努力にもかかわらず、異なるLLMのパフォーマンスを評価するために特別に設計されたマルチエージェントAIモデルには顕著な欠如がある。
このギャップに対処するために、様々なLLMの性能を評価し比較することを目的とした、新しいマルチエージェントAIモデルを導入する。
我々のモデルは8つのAIエージェントから構成されており、それぞれが、GPT-3.5、GPT-3.5 Turbo、GPT-4、GPT-4 Turbo、Google Bard、LAMA、Hugging Faceなど、さまざまな先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
開発したモデルは,言語モデルのAPIを利用して,与えられたハイレベルな記述のためのコードを取得する。
さらに,コードの評価に重要な役割を担った検証エージェントを開発した。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
最初の結果から, GPT-3.5ターボモデルの性能は他のモデルよりも比較的良好であることが示唆された。
この予備分析はベンチマークとして機能し、パフォーマンスを並べて比較する。
今後の目標は、MPPP(Massively Multitask Benchmark for Python)ベンチマークを組み込むことで、評価プロセスを強化することです。
さらに、開発したモデルを、さまざまなバックグラウンドを持つ20人の実践者と共有して、モデルをテストするとともに、さらなる改善のためにフィードバックを収集する予定です。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - AI based Multiagent Approach for Requirements Elicitation and Analysis [3.9422957660677476]
本研究では,大規模言語モデル(LLM)を用いた要求分析タスクの自動化の有効性を実証的に検討する。
我々は,GPT-3.5,GPT-4 Omni,LLaMA3-70,Mixtral-8Bの4つのモデルをデプロイし,実世界の4つのプロジェクトにおける要件を分析する実験を行った。
予備的な結果は,各モデルにおけるタスク完了の顕著な変化を示している。
論文 参考訳(メタデータ) (2024-08-18T07:23:12Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。