論文の概要: Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM
- arxiv url: http://arxiv.org/abs/2403.08010v3
- Date: Wed, 19 Jun 2024 19:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:49:43.299450
- Title: Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM
- Title(参考訳): Debatrix: LLMに基づく反復時間解析による多次元議論判断
- Authors: Jingcong Liang, Rong Ye, Meng Han, Ruofei Lai, Xinyu Zhang, Xuanjing Huang, Zhongyu Wei,
- Abstract要約: Debatrixは、Large Language Models (LLMs)に基づく自動ディスカッションジャッジである。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行ない,顕著な改善が見られた。
- 参考スコア(独自算出の注目度): 51.43102092480804
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: How can we construct an automated debate judge to evaluate an extensive, vibrant, multi-turn debate? This task is challenging, as judging a debate involves grappling with lengthy texts, intricate argument relationships, and multi-dimensional assessments. At the same time, current research mainly focuses on short dialogues, rarely touching upon the evaluation of an entire debate. In this paper, by leveraging Large Language Models (LLMs), we propose Debatrix, which makes the analysis and assessment of multi-turn debates more aligned with majority preferences. Specifically, Debatrix features a vertical, iterative chronological analysis and a horizontal, multi-dimensional evaluation collaboration. To align with real-world debate scenarios, we introduced the PanelBench benchmark, comparing our system's performance to actual debate outcomes. The findings indicate a notable enhancement over directly using LLMs for debate evaluation. Source code and benchmark data are available online at https://github.com/ljcleo/debatrix .
- Abstract(参考訳): 広範囲で活気あるマルチターンの議論を評価するために、自動討論審査をどうやって構築できるのか?
この課題は、長いテキスト、複雑な議論関係、多次元アセスメントなどで議論されるので、難しい。
同時に、現在の研究は主に短い対話に焦点を当てており、議論全体を評価することはめったにない。
本稿では,Large Language Models (LLMs) を利用して,マルチターン討論の分析と評価を行うDebatrixを提案する。
具体的には、Debatrixは垂直かつ反復的な時系列分析と水平多次元評価コラボレーションを備えている。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行うことによる顕著な改善が示唆された。
ソースコードとベンチマークデータはhttps://github.com/ljcleo/debatrix.comで公開されている。
関連論文リスト
- ACC-Debate: An Actor-Critic Approach to Multi-Agent Debate [20.040543142468344]
本稿では,アクタ・クリティカルをベースとした学習フレームワークACC-Debateを提案する。
ACC-Debate は幅広いベンチマークで SotA の議論手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-30T19:09:02Z) - Training Language Models to Win Debates with Self-Play Improves Judge Accuracy [8.13173791334223]
本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。
言語モデルに基づく評価器は、モデルの判断が議論に勝つように最適化されたときに、より正確に質問に答える。
論文 参考訳(メタデータ) (2024-09-25T05:28:33Z) - Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate [22.813887723656023]
Agent for Debate (Agent4Debate)は、大規模言語モデル(LLM)に基づく動的マルチエージェントフレームワークである。
評価には、Debatrix自動スコアシステムと、確立されたDebatrix-EloとHuman-Eloのランキングに基づく専門家の人間レビュアーが使用されている。
実験の結果、最先端のAgent4Debateは人間の能力に匹敵する能力を示した。
論文 参考訳(メタデータ) (2024-08-08T14:02:45Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - DEBACER: a method for slicing moderated debates [55.705662163385966]
同じ主題を持つブロックに議論を分割することは理解に不可欠である。
議論を適度に分割する新しいアルゴリズムDEBACERを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:39:07Z) - High Quality Real-Time Structured Debate Generation [0.0]
ハイレベルな構造と文法を図りながら議論を起こすための議論木と経路を定義した。
各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。
以上の結果から,人間に近い品質で複雑なトピックをリアルタイムに議論する能力を示す。
論文 参考訳(メタデータ) (2020-12-01T01:39:38Z) - DebateSum: A large-scale argument mining and summarization dataset [0.0]
DebateSumは187,386個の独特な証拠と、対応する議論と抽出的な要約で構成されている。
DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。
本稿では,全国言語討論会のメンバーによって広く活用されているデータセットの検索エンジンについて述べる。
論文 参考訳(メタデータ) (2020-11-14T10:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。