Fugu-MT 論文翻訳(概要): Debatrix: Multi-dimensinal Debate Judge with Iterative Chronological Analysis Based on LLM

論文の概要: Debatrix: Multi-dimensinal Debate Judge with Iterative Chronological Analysis Based on LLM

arxiv url: http://arxiv.org/abs/2403.08010v1
Date: Tue, 12 Mar 2024 18:19:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 16:55:12.142927
Title: Debatrix: Multi-dimensinal Debate Judge with Iterative Chronological Analysis Based on LLM
Title（参考訳）: Debatrix: 反復時間による多次元議論判断 LLMに基づく解析
Authors: Jingcong Liang, Rong Ye, Meng Han, Ruofei Lai, Xinyu Zhang, Xuanjing Huang and Zhongyu Wei
Abstract要約: 本稿では,マルチターン討論の分析と評価を多数派の好意に合致させるDebatrixを提案する。具体的には、Debatrixは垂直かつ反復的な時系列分析と水平多次元評価コラボレーションを備えている。実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
参考スコア（独自算出の注目度）: 54.01006653261757
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: How can we construct an automated debate judge to evaluate an extensive, vibrant, multi-turn debate? This task is challenging, as judging a debate involves grappling with lengthy texts, intricate argument relationships, and multi-dimensional assessments. At the same time, current research mainly focuses on short dialogues, rarely touching upon the evaluation of an entire debate. In this paper, by leveraging Large Language Models (LLMs), we propose Debatrix, which makes the analysis and assessment of multi-turn debates more aligned with majority preferences. Specifically, Debatrix features a vertical, iterative chronological analysis and a horizontal, multi-dimensional evaluation collaboration. To align with real-world debate scenarios, we introduced the PanelBench benchmark, comparing our system's performance to actual debate outcomes. The findings indicate a notable enhancement over directly using LLMs for debate evaluation. Source code and benchmark data are available online at https://github.com/ljcleo/Debatrix .
Abstract（参考訳）: 広範囲で活気あるマルチターンの議論を評価するために、自動討論審査をどうやって構築できるのか? この課題は、長いテキスト、複雑な議論関係、多次元アセスメントなどで議論されるので、難しい。同時に、現在の研究は主に短い対話に焦点を当てており、議論全体を評価することはめったにない。本稿では,Large Language Models (LLMs) を利用して,マルチターン討論の分析と評価を行うDebatrixを提案する。具体的には、Debatrixは垂直かつ反復的な時系列分析と水平多次元評価コラボレーションを備えている。実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。以上の結果から,LSMを直接使用して議論評価を行うことによる顕著な改善が示唆された。ソースコードとベンチマークデータはhttps://github.com/ljcleo/Debatrix.comで公開されている。

関連論文リスト

DS@GT at Touché: Large Language Models for Retrieval-Augmented Debate [0.0]
Retrieval-Augmented Debate and Evaluationの6つの主要な公開モデルを展開します。評価は、Quality、Quantity、Manner、Relationの4つの重要なメトリクスを測定することで行われる。 LLMは関連する議論を行う際にはよく機能するが、評価において一貫性のある応答では冗長である傾向にある。
論文参考訳（メタデータ） (2025-07-12T00:20:00Z)
CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate [11.155092859033784]
単一大言語モデル(LLM)の問題を緩和するための効果的な戦略としてマルチエージェント議論(MAD)が登場した。既存のMAD手法では、 (a) LLMエージェントが多くの入力情報に紛失し、性能低下を経験する、 (b) 自信過剰なジレンマ(自己保証LDMエージェントが議論を支配し、議論の有効性を低くする、という2つの問題に直面している。そこで我々は,ヒトの脳に着想を得た新しいMAD手法"CortexDebate"を提案する。
論文参考訳（メタデータ） (2025-07-05T07:23:15Z)
Debating for Better Reasoning: An Unsupervised Multimodal Approach [56.74157117060815]
議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
論文参考訳（メタデータ） (2025-05-20T17:18:17Z)
A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文参考訳（メタデータ） (2025-05-20T09:13:22Z)
DebateBench: A Challenging Long Context Reasoning Benchmark For Large Language Models [1.8197265299982013]
DebateBenchを紹介します。このデータセットは、世界で最も権威ある競争上の議論のいくつかから、広範な写本とメタデータのコレクションで構成された、新しいデータセットです。このデータセットは、様々なトピックに関する高名な討論会から英国議会で議論され、詳細なスピーチレベルスコアと公式の判断データから得られた家格ランキングが注釈付けされている。我々は32の討論で256のスピーチをキュレートし、各討論は1時間以上、各入力は平均32,000のトークンである。
論文参考訳（メタデータ） (2025-02-10T09:23:03Z)
ACC-Debate: An Actor-Critic Approach to Multi-Agent Debate [20.040543142468344]
本稿では,アクタ・クリティカルをベースとした学習フレームワークACC-Debateを提案する。 ACC-Debate は幅広いベンチマークで SotA の議論手法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-30T19:09:02Z)
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy [8.13173791334223]
本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。言語モデルに基づく評価器は、モデルの判断が議論に勝つように最適化されたときに、より正確に質問に答える。
論文参考訳（メタデータ） (2024-09-25T05:28:33Z)
Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate [22.813887723656023]
Agent for Debate (Agent4Debate)は、大規模言語モデル(LLM)に基づく動的マルチエージェントフレームワークである。評価には、Debatrix自動スコアシステムと、確立されたDebatrix-EloとHuman-Eloのランキングに基づく専門家の人間レビュアーが使用されている。実験の結果、最先端のAgent4Debateは人間の能力に匹敵する能力を示した。
論文参考訳（メタデータ） (2024-08-08T14:02:45Z)
On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文参考訳（メタデータ） (2024-07-05T16:29:15Z)
Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文参考訳（メタデータ） (2024-06-09T08:24:17Z)
Argue with Me Tersely: Towards Sentence-Level Counter-Argument Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文参考訳（メタデータ） (2023-12-21T06:51:34Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
DEBACER: a method for slicing moderated debates [55.705662163385966]
同じ主題を持つブロックに議論を分割することは理解に不可欠である。議論を適度に分割する新しいアルゴリズムDEBACERを提案する。
論文参考訳（メタデータ） (2021-12-10T10:39:07Z)
High Quality Real-Time Structured Debate Generation [0.0]
ハイレベルな構造と文法を図りながら議論を起こすための議論木と経路を定義した。各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。以上の結果から,人間に近い品質で複雑なトピックをリアルタイムに議論する能力を示す。
論文参考訳（メタデータ） (2020-12-01T01:39:38Z)
DebateSum: A large-scale argument mining and summarization dataset [0.0]
DebateSumは187,386個の独特な証拠と、対応する議論と抽出的な要約で構成されている。 DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。本稿では,全国言語討論会のメンバーによって広く活用されているデータセットの検索エンジンについて述べる。
論文参考訳（メタデータ） (2020-11-14T10:06:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。