論文の概要: Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate
- arxiv url: http://arxiv.org/abs/2408.04472v1
- Date: Thu, 8 Aug 2024 14:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:28:24.608070
- Title: Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate
- Title(参考訳): LLMは人間に勝てるか? 競争力のある議論のための動的マルチエージェントフレームワーク
- Authors: Yiqun Zhang, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song,
- Abstract要約: Agent for Debate (Agent4Debate)は、大規模言語モデル(LLM)に基づく動的マルチエージェントフレームワークである。
Agent4Debateは、4つの特別なエージェント(Searcher、Analyzer、Writer、Reviewer)が動的に対話し協力するコラボレーティブアーキテクチャを採用している。
我々は、経験豊富な10人の議論者を募集し、Agent4Debate、ベースラインモデル、および人間を含む200の議論の記録を収集します。
実験の結果、最先端のAgent4Debateは人間の能力に匹敵する能力を示した。
- 参考スコア(独自算出の注目度): 22.813887723656023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Competitive debate is a comprehensive and complex computational argumentation task. Large Language Models (LLMs) encounter hallucinations and lack competitiveness in this task. To address these challenges, we introduce Agent for Debate (Agent4Debate), a dynamic, multi-agent framework based on LLMs designed to enhance their capabilities in competitive debate. Drawing inspiration from human behavior in debate preparation and execution, Agent4Debate employs a collaborative architecture where four specialized agents (Searcher, Analyzer, Writer, and Reviewer) dynamically interact and cooperate. These agents work throughout the debate process, covering multiple stages from initial research and argument formulation to rebuttal and summary. To comprehensively evaluate framework performance, we construct the Chinese Debate Arena, comprising 66 carefully selected Chinese debate motions. We recruite ten experienced human debaters and collect records of 200 debates involving Agent4Debate, baseline models, and humans. The evaluation employs the Debatrix automatic scoring system and professional human reviewers based on the established Debatrix-Elo and Human-Elo ranking. Experimental results indicate that the state-of-the-art Agent4Debate exhibits capabilities comparable to those of humans. Furthermore, ablation studies demonstrate the effectiveness of each component in the agent structure.
- Abstract(参考訳): 競争的議論は包括的で複雑な計算的議論課題である。
大きな言語モデル(LLM)は幻覚に遭遇し、このタスクでは競争力に欠ける。
これらの課題に対処するために,競争上の議論においてその能力を高めるために設計されたLLMをベースとした動的マルチエージェントフレームワークであるAgent4Debate(Agent4Debate)を紹介した。
Agent4Debateは、議論の準備と実行における人間の行動からインスピレーションを得て、4つの専門エージェント(Searcher、Analyzer、Writer、Reviewer)が動的に対話し協力する協調アーキテクチャを採用している。
これらのエージェントは議論プロセス全体を通して働き、最初の研究から議論の定式化から反感と要約まで、様々な段階をカバーする。
フレームワークのパフォーマンスを網羅的に評価するために,66の慎重に選択された中国語討論運動からなる中国語討論アリーナを構築した。
我々は、経験豊富な10人の議論者を募集し、Agent4Debate、ベースラインモデル、および人間を含む200の議論の記録を収集します。
評価には、Debatrix自動スコアシステムと、確立されたDebatrix-EloとHuman-Eloのランキングに基づく専門家の人間レビュアーが使用されている。
実験の結果、最先端のAgent4Debateは人間の能力に匹敵する能力を示した。
さらに、アブレーション研究は、エージェント構造における各成分の有効性を示す。
関連論文リスト
- ACC-Debate: An Actor-Critic Approach to Multi-Agent Debate [20.040543142468344]
本稿では,アクタ・クリティカルをベースとした学習フレームワークACC-Debateを提案する。
ACC-Debate は幅広いベンチマークで SotA の議論手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-30T19:09:02Z) - GroupDebate: Enhancing the Efficiency of Multi-Agent Debate Using Group Discussion [8.948702488582583]
本稿では,マルチエージェントの議論においてトークンコストを大幅に削減する手法を提案する。
本手法は,マルチエージェント討論におけるインタラクションの性能と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-21T07:49:38Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM [51.43102092480804]
Debatrixは、Large Language Models (LLMs)に基づく自動ディスカッションジャッジである。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行ない,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-03-12T18:19:47Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - High Quality Real-Time Structured Debate Generation [0.0]
ハイレベルな構造と文法を図りながら議論を起こすための議論木と経路を定義した。
各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。
以上の結果から,人間に近い品質で複雑なトピックをリアルタイムに議論する能力を示す。
論文 参考訳(メタデータ) (2020-12-01T01:39:38Z) - DebateSum: A large-scale argument mining and summarization dataset [0.0]
DebateSumは187,386個の独特な証拠と、対応する議論と抽出的な要約で構成されている。
DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。
本稿では,全国言語討論会のメンバーによって広く活用されているデータセットの検索エンジンについて述べる。
論文 参考訳(メタデータ) (2020-11-14T10:06:57Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。