論文の概要: Are we going MAD? Benchmarking Multi-Agent Debate between Language
Models for Medical Q&A
- arxiv url: http://arxiv.org/abs/2311.17371v1
- Date: Wed, 29 Nov 2023 05:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:28:31.100036
- Title: Are we going MAD? Benchmarking Multi-Agent Debate between Language
Models for Medical Q&A
- Title(参考訳): 私たちはMADに行きますか。
医学的Q&Aのための言語モデル間のマルチエージェント議論のベンチマーク
- Authors: Andries Smit, Paul Duckworth, Nathan Grinsztajn, Kale-ab Tessera,
Thomas D. Barrett and Arnu Pretorius
- Abstract要約: 大規模言語モデル(LLM)の真正性を高めるための重要な戦略として,マルチエージェント討論(MAD)が登場した。
我々は、オープンソース実装とともに、医療Q&AのためのMAD戦略のベンチマークを提供する。
我々はこれらの知見に基づいて、以前公表されたQ&Aタスクの戦略より優れたエージェント合意に基づく、新たな議論促進戦略を提供する。
- 参考スコア(独自算出の注目度): 7.7433783185451075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) underscore their
potential for responding to medical inquiries. However, ensuring that
generative agents provide accurate and reliable answers remains an ongoing
challenge. In this context, multi-agent debate (MAD) has emerged as a prominent
strategy for enhancing the truthfulness of LLMs. In this work, we provide a
comprehensive benchmark of MAD strategies for medical Q&A, along with
open-source implementations. This explores the effective utilization of various
strategies including the trade-offs between cost, time, and accuracy. We build
upon these insights to provide a novel debate-prompting strategy based on agent
agreement that outperforms previously published strategies on medical Q&A
tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、医学的問い合わせに反応する可能性を示している。
しかし、生成エージェントが正確かつ信頼性の高い回答を提供することの確保は、まだ進行中の課題である。
この文脈において、マルチエージェント討論(MAD)はLLMの真正性を高めるための顕著な戦略として現れている。
本研究では,医療用Q&AのためのMAD戦略の総合的ベンチマークとオープンソース実装を提供する。
これは、コスト、時間、正確性の間のトレードオフを含む様々な戦略の効果的な利用を探求する。
我々はこれらの知見に基づいて、以前公表されたQ&Aタスクの戦略より優れたエージェント合意に基づく、新たな議論促進戦略を提供する。
関連論文リスト
- Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。
我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。
評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Improving Multi-Agent Debate with Sparse Communication Topology [9.041025703879905]
マルチエージェントの議論は、推論や事実性タスクのための大規模言語モデルの品質向上に有効であることが証明されている。
本稿では,マルチエージェントシステムにおける通信接続の効果について検討する。
GPTモデルとMistralモデルを用いた実験により,疎通信トポロジを利用したマルチエージェントの議論が同等あるいは優れた性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-06-17T17:33:09Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。