論文の概要: InspireDebate: Multi-Dimensional Subjective-Objective Evaluation-Guided Reasoning and Optimization for Debating
- arxiv url: http://arxiv.org/abs/2506.18102v1
- Date: Sun, 22 Jun 2025 17:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.748917
- Title: InspireDebate: Multi-Dimensional Subjective-Objective Evaluation-Guided Reasoning and Optimization for Debating
- Title(参考訳): InspireDebate:多次元主観的評価誘導推論と議論の最適化
- Authors: Fuyu Wang, Jiangtong Li, Kun Zhu, Changjun Jiang,
- Abstract要約: 既存の大規模言語モデル(LLM)は、信頼性や論理的妥当性といった客観的評価を無視しながら、特定の議論に応答することに焦点を当てている。
本稿では,新しい評価システムである$textbfInspireScore$と最適化された議論フレームワークである$textbfInspireDebate$を提案する。
$textbfInspireScore$は、既存のメソッドと比較して、専門家の判断と44$%高い相関を達成している。
- 参考スコア(独自算出の注目度): 15.096294311783836
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the rapid advancements in large language models (LLMs), debating tasks, such as argument quality assessment and debate process simulation, have made significant progress. However, existing LLM-based debating systems focus on responding to specific arguments while neglecting objective assessments such as authenticity and logical validity. Furthermore, these systems lack a structured approach to optimize across various dimensions$-$including evaluation metrics, chain-of-thought (CoT) reasoning, and multi-turn debate refinement$-$thereby limiting their effectiveness. To address these interconnected challenges, we propose a dual-component framework: (1) $\textbf{InspireScore}$, a novel evaluation system that establishes a multi-dimensional assessment architecture incorporating four subjective criteria (emotional appeal, argument clarity, argument arrangement, and topic relevance) alongside two objective metrics (fact authenticity and logical validity); and (2) $\textbf{InspireDebate}$, an optimized debating framework employing a phased optimization approach through CoT reasoning enhancement, multi-dimensional Direct Preference Optimization (DPO), and real-time knowledge grounding via web-based Retrieval Augmented Generation (Web-RAG). Empirical evaluations demonstrate that $\textbf{InspireScore}$ achieves 44$\%$ higher correlation with expert judgments compared to existing methods, while $\textbf{InspireDebate}$ shows significant improvements, outperforming baseline models by 57$\%$. Source code is available at https://github.com/fywang12/InspireDebate.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、議論品質評価や議論プロセスシミュレーションといった議論課題が大幅に進展した。
しかし、既存のLLMベースの議論システムは、真性や論理的妥当性といった客観的評価を無視しながら、特定の議論に対応することに重点を置いている。
さらに、これらのシステムには、様々な次元にわたる最適化のための構造化されたアプローチが欠けている。
これらの課題に対処するため,(1)$\textbf{InspireScore}$,(2)$\textbf{InspireDebate}$,(2)CoT推論の強化,多次元指向性最適化(DPO)による位相最適化アプローチ,WebベースのRetrieval Augmented Generation(Web-RAG)によるリアルタイム知識基盤,という4つの主観的基準(感情的魅力,議論の明確性,議論のアレンジ,話題の関連性)を取り入れた,多次元評価アーキテクチャを確立する新しい評価システムを提案する。
経験的評価は、$\textbf{InspireScore}$が、既存のメソッドと比較して44$\%$高い相関を達成しているのに対し、$\textbf{InspireDebate}$は、57$\%のベースラインモデルよりも大幅に改善されていることを示している。
ソースコードはhttps://github.com/fywang12/InspireDebate.comで入手できる。
関連論文リスト
- Understanding Bias Reinforcement in LLM Agents Debate [28.36216398327389]
大規模言語モデル(LLM)は、プロンプトエンジニアリングやコンテキスト内学習のようなトレーニング不要の手法を使って複雑な問題を解決する。
自己整合性や自己整合性といった自己補正手法は信頼性の向上を目的としている。
バイアス強化と視点の多様性の欠如です。
論文 参考訳(メタデータ) (2025-03-21T02:51:30Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating the Performance of Large Language Models via Debates [43.40134389150456]
大規模言語モデル(LLM)は急速に進化し、様々な分野に影響を与えています。
パフォーマンス評価の現在のほとんどのアプローチは、固定されたドメイン固有の質問に基づいているか、あるいは人間の入力に依存している。
本稿では,LLM間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、議論的推論や矛盾認識といったスキルも評価する。
論文 参考訳(メタデータ) (2024-06-16T19:02:31Z) - Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM [51.43102092480804]
Debatrixは、Large Language Models (LLMs)に基づく自動ディスカッションジャッジである。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行ない,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-03-12T18:19:47Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - $\{\text{PF}\}^2\text{ES}$: Parallel Feasible Pareto Frontier Entropy
Search for Multi-Objective Bayesian Optimization Under Unknown Constraints [4.672142224503371]
本稿では,多目的ベイズ最適化のための情報理論獲得関数を提案する。
$textPF2$ESは、並列設定のための相互情報の低コストで正確な見積もりを提供する。
合成問題と実生活問題で$textPF2$ESをベンチマークします。
論文 参考訳(メタデータ) (2022-04-11T21:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。