論文の概要: Debatrix: Multi-dimensinal Debate Judge with Iterative Chronological
Analysis Based on LLM
- arxiv url: http://arxiv.org/abs/2403.08010v1
- Date: Tue, 12 Mar 2024 18:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:55:12.142927
- Title: Debatrix: Multi-dimensinal Debate Judge with Iterative Chronological
Analysis Based on LLM
- Title(参考訳): Debatrix: 反復時間による多次元議論判断
LLMに基づく解析
- Authors: Jingcong Liang, Rong Ye, Meng Han, Ruofei Lai, Xinyu Zhang, Xuanjing
Huang and Zhongyu Wei
- Abstract要約: 本稿では,マルチターン討論の分析と評価を多数派の好意に合致させるDebatrixを提案する。
具体的には、Debatrixは垂直かつ反復的な時系列分析と水平多次元評価コラボレーションを備えている。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
- 参考スコア(独自算出の注目度): 54.01006653261757
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: How can we construct an automated debate judge to evaluate an extensive,
vibrant, multi-turn debate? This task is challenging, as judging a debate
involves grappling with lengthy texts, intricate argument relationships, and
multi-dimensional assessments. At the same time, current research mainly
focuses on short dialogues, rarely touching upon the evaluation of an entire
debate. In this paper, by leveraging Large Language Models (LLMs), we propose
Debatrix, which makes the analysis and assessment of multi-turn debates more
aligned with majority preferences. Specifically, Debatrix features a vertical,
iterative chronological analysis and a horizontal, multi-dimensional evaluation
collaboration. To align with real-world debate scenarios, we introduced the
PanelBench benchmark, comparing our system's performance to actual debate
outcomes. The findings indicate a notable enhancement over directly using LLMs
for debate evaluation. Source code and benchmark data are available online at
https://github.com/ljcleo/Debatrix .
- Abstract(参考訳): 広範囲で活気あるマルチターンの議論を評価するために、自動討論審査をどうやって構築できるのか?
この課題は、長いテキスト、複雑な議論関係、多次元アセスメントなどで議論されるので、難しい。
同時に、現在の研究は主に短い対話に焦点を当てており、議論全体を評価することはめったにない。
本稿では,Large Language Models (LLMs) を利用して,マルチターン討論の分析と評価を行うDebatrixを提案する。
具体的には、Debatrixは垂直かつ反復的な時系列分析と水平多次元評価コラボレーションを備えている。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行うことによる顕著な改善が示唆された。
ソースコードとベンチマークデータはhttps://github.com/ljcleo/Debatrix.comで公開されている。
関連論文リスト
- MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language
Models in Multi-Turn Dialogues [60.06687731373886]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - DebateKG: Automatic Policy Debate Case Creation with Semantic Knowledge
Graphs [0.0]
本稿では,Argumentative Semantic Knowledge Graphs上で,制約付き最短経路トラバーサルを用いて効果的な議論ケースを構築することができることを示す。
53180の新しい例を導入することで、DebateSumを大幅に改善しました。
政策論争の事例を生成する文脈において、どの知識グラフが優れているかを評価するためのユニークな方法を作成する。
論文 参考訳(メタデータ) (2023-07-09T04:19:19Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Explaining Image Classification with Visual Debates [26.76139301708958]
本稿では,特定の予測を行うための連続画像分類器の推論の理解と説明のための新しい議論フレームワークを提案する。
我々の枠組みは、対戦相手が見逃した推論の道筋を拾い上げることで、競技者が様々な議論を行うよう促す。
我々は、幾何学的SHAPEおよびMNISTデータセット上で、視覚的議論を実証し、評価する(実用的な実現)。
論文 参考訳(メタデータ) (2022-10-17T12:35:52Z) - DEBACER: a method for slicing moderated debates [55.705662163385966]
同じ主題を持つブロックに議論を分割することは理解に不可欠である。
議論を適度に分割する新しいアルゴリズムDEBACERを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:39:07Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - High Quality Real-Time Structured Debate Generation [0.0]
ハイレベルな構造と文法を図りながら議論を起こすための議論木と経路を定義した。
各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。
以上の結果から,人間に近い品質で複雑なトピックをリアルタイムに議論する能力を示す。
論文 参考訳(メタデータ) (2020-12-01T01:39:38Z) - DebateSum: A large-scale argument mining and summarization dataset [0.0]
DebateSumは187,386個の独特な証拠と、対応する議論と抽出的な要約で構成されている。
DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。
本稿では,全国言語討論会のメンバーによって広く活用されているデータセットの検索エンジンについて述べる。
論文 参考訳(メタデータ) (2020-11-14T10:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。