論文の概要: Strategic Planning and Rationalizing on Trees Make LLMs Better Debaters
- arxiv url: http://arxiv.org/abs/2505.14886v1
- Date: Tue, 20 May 2025 20:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.738977
- Title: Strategic Planning and Rationalizing on Trees Make LLMs Better Debaters
- Title(参考訳): 戦略計画と木への合理化はLLMをより良くする
- Authors: Danqing Wang, Zhuorui Ye, Xinran Zhao, Fei Fang, Lei Li,
- Abstract要約: 競争の激しい議論の枠組みであるTreeDebaterを提案する。
TreeDebaterは、人間の議論専門家の戦略と整合して、重要な議論行動に時間を割くためのより良い戦略を示す。
- 参考スコア(独自算出の注目度): 41.63762714104634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Winning competitive debates requires sophisticated reasoning and argument skills. There are unique challenges in the competitive debate: (1) The time constraints force debaters to make strategic choices about which points to pursue rather than covering all possible arguments; (2) The persuasiveness of the debate relies on the back-and-forth interaction between arguments, which a single final game status cannot evaluate. To address these challenges, we propose TreeDebater, a novel debate framework that excels in competitive debate. We introduce two tree structures: the Rehearsal Tree and Debate Flow Tree. The Rehearsal Tree anticipates the attack and defenses to evaluate the strength of the claim, while the Debate Flow Tree tracks the debate status to identify the active actions. TreeDebater allocates its time budget among candidate actions and uses the speech time controller and feedback from the simulated audience to revise its statement. The human evaluation on both the stage-level and the debate-level comparison shows that our TreeDebater outperforms the state-of-the-art multi-agent debate system. Further investigation shows that TreeDebater shows better strategies in limiting time to important debate actions, aligning with the strategies of human debate experts.
- Abstract(参考訳): 競争の激しい議論に勝つには、洗練された推論と議論のスキルが必要です。
1) 時間制約は、議論者がすべての可能な議論をカバーするのではなく、どのポイントを追求するかという戦略的な選択を強制する; (2) 議論の説得力は、単一の最終ゲーム状態が評価できない議論間の相互の相互作用に依存する。
これらの課題に対処するために,競争上の議論に長けている新しい議論フレームワークであるTreeDebaterを提案する。
リハーサルツリーとディベートフローツリーという2つのツリー構造を紹介します。
リハーサル・ツリーはクレームの強さを評価するために攻撃と防御を予想し、ディベート・フロー・ツリーは議論の状況を追跡し、アクティブなアクションを特定する。
TreeDebaterは、候補アクションに時間予算を割り当て、スピーチタイムコントローラと、シミュレーションされた聴衆からのフィードバックを使用して、ステートメントを改訂する。
ステージレベルと議論レベルを比較した人間による評価は、われわれのTreeDebaterが最先端のマルチエージェント討論システムより優れていることを示している。
さらなる調査は、TreeDebaterが人間の議論専門家の戦略に沿って重要な議論行動に時間を割くためのより良い戦略を示していることを示している。
関連論文リスト
- Debating for Better Reasoning: An Unsupervised Multimodal Approach [56.74157117060815]
議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。
視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。
この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
論文 参考訳(メタデータ) (2025-05-20T17:18:17Z) - DebateBench: A Challenging Long Context Reasoning Benchmark For Large Language Models [1.8197265299982013]
DebateBenchを紹介します。このデータセットは、世界で最も権威ある競争上の議論のいくつかから、広範な写本とメタデータのコレクションで構成された、新しいデータセットです。
このデータセットは、様々なトピックに関する高名な討論会から英国議会で議論され、詳細なスピーチレベルスコアと公式の判断データから得られた家格ランキングが注釈付けされている。
我々は32の討論で256のスピーチをキュレートし、各討論は1時間以上、各入力は平均32,000のトークンである。
論文 参考訳(メタデータ) (2025-02-10T09:23:03Z) - Can LLMs Beat Humans in Debating? A Dynamic Multi-agent Framework for Competitive Debate [22.813887723656023]
Agent for Debate (Agent4Debate)は、大規模言語モデル(LLM)に基づく動的マルチエージェントフレームワークである。
評価には、Debatrix自動スコアシステムと、確立されたDebatrix-EloとHuman-Eloのランキングに基づく専門家の人間レビュアーが使用されている。
実験の結果、最先端のAgent4Debateは人間の能力に匹敵する能力を示した。
論文 参考訳(メタデータ) (2024-08-08T14:02:45Z) - A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning [53.35861580821777]
この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。
この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。
BDoGでは、世界レベルの要約による意見の自明化を防止するために、ブループリントグラフに限定して議論を行う。さらに、BDoGはグラフ内の枝に証拠を格納することで、頻繁だが無関係な概念によって引き起こされる混乱を緩和する。
論文 参考訳(メタデータ) (2024-03-22T06:03:07Z) - Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM [51.43102092480804]
Debatrixは、Large Language Models (LLMs)に基づく自動ディスカッションジャッジである。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行ない,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-03-12T18:19:47Z) - High Quality Real-Time Structured Debate Generation [0.0]
ハイレベルな構造と文法を図りながら議論を起こすための議論木と経路を定義した。
各議論に関連付けられたメタデータを持つ木構造論争の大規模なコーパスを活用する。
以上の結果から,人間に近い品質で複雑なトピックをリアルタイムに議論する能力を示す。
論文 参考訳(メタデータ) (2020-12-01T01:39:38Z) - DebateSum: A large-scale argument mining and summarization dataset [0.0]
DebateSumは187,386個の独特な証拠と、対応する議論と抽出的な要約で構成されている。
DebateSum上でいくつかの変換器要約モデルを用いて要約性能のベンチマークを行う。
本稿では,全国言語討論会のメンバーによって広く活用されているデータセットの検索エンジンについて述べる。
論文 参考訳(メタデータ) (2020-11-14T10:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。