論文の概要: InspireDebate: Multi-Dimensional Subjective-Objective Evaluation-Guided Reasoning and Optimization for Debating
- arxiv url: http://arxiv.org/abs/2506.18102v1
- Date: Sun, 22 Jun 2025 17:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.748917
- Title: InspireDebate: Multi-Dimensional Subjective-Objective Evaluation-Guided Reasoning and Optimization for Debating
- Title(参考訳): InspireDebate:多次元主観的評価誘導推論と議論の最適化
- Authors: Fuyu Wang, Jiangtong Li, Kun Zhu, Changjun Jiang,
- Abstract要約: 既存の大規模言語モデル(LLM)は、信頼性や論理的妥当性といった客観的評価を無視しながら、特定の議論に応答することに焦点を当てている。
本稿では,新しい評価システムである$textbfInspireScore$と最適化された議論フレームワークである$textbfInspireDebate$を提案する。
$textbfInspireScore$は、既存のメソッドと比較して、専門家の判断と44$%高い相関を達成している。
- 参考スコア(独自算出の注目度): 15.096294311783836
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the rapid advancements in large language models (LLMs), debating tasks, such as argument quality assessment and debate process simulation, have made significant progress. However, existing LLM-based debating systems focus on responding to specific arguments while neglecting objective assessments such as authenticity and logical validity. Furthermore, these systems lack a structured approach to optimize across various dimensions$-$including evaluation metrics, chain-of-thought (CoT) reasoning, and multi-turn debate refinement$-$thereby limiting their effectiveness. To address these interconnected challenges, we propose a dual-component framework: (1) $\textbf{InspireScore}$, a novel evaluation system that establishes a multi-dimensional assessment architecture incorporating four subjective criteria (emotional appeal, argument clarity, argument arrangement, and topic relevance) alongside two objective metrics (fact authenticity and logical validity); and (2) $\textbf{InspireDebate}$, an optimized debating framework employing a phased optimization approach through CoT reasoning enhancement, multi-dimensional Direct Preference Optimization (DPO), and real-time knowledge grounding via web-based Retrieval Augmented Generation (Web-RAG). Empirical evaluations demonstrate that $\textbf{InspireScore}$ achieves 44$\%$ higher correlation with expert judgments compared to existing methods, while $\textbf{InspireDebate}$ shows significant improvements, outperforming baseline models by 57$\%$. Source code is available at https://github.com/fywang12/InspireDebate.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、議論品質評価や議論プロセスシミュレーションといった議論課題が大幅に進展した。
しかし、既存のLLMベースの議論システムは、真性や論理的妥当性といった客観的評価を無視しながら、特定の議論に対応することに重点を置いている。
さらに、これらのシステムには、様々な次元にわたる最適化のための構造化されたアプローチが欠けている。
これらの課題に対処するため,(1)$\textbf{InspireScore}$,(2)$\textbf{InspireDebate}$,(2)CoT推論の強化,多次元指向性最適化(DPO)による位相最適化アプローチ,WebベースのRetrieval Augmented Generation(Web-RAG)によるリアルタイム知識基盤,という4つの主観的基準(感情的魅力,議論の明確性,議論のアレンジ,話題の関連性)を取り入れた,多次元評価アーキテクチャを確立する新しい評価システムを提案する。
経験的評価は、$\textbf{InspireScore}$が、既存のメソッドと比較して44$\%$高い相関を達成しているのに対し、$\textbf{InspireDebate}$は、57$\%のベースラインモデルよりも大幅に改善されていることを示している。
ソースコードはhttps://github.com/fywang12/InspireDebate.comで入手できる。
関連論文リスト
- Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks [2.3188831772813105]
本稿では、既存のQAデータセットを構造化された敵対的議論に変換する議論駆動評価パラダイムを提案する。
我々は,(1)QAタスクを議論に基づく評価に体系的に変換する評価パイプライン,(2)MMLU-Pro質問のサブセットにおけるパラダイムの有効性を示す公開ベンチマークの2つの主要な貢献を行う。
論文 参考訳(メタデータ) (2025-07-23T17:58:14Z) - Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement [43.532921045069365]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクにおいて、新しい標準を設定し続けている。
静的な知識蒸留、人間からのフィードバックからのリソース集約的な強化学習、あるいは限られた自己回帰のような現在の技術は、実質的で持続的なパフォーマンス向上をもたらす。
本稿では、より小さなモデルとより強力な教師モデルの間でのマルチターン議論を編成し、実用的なフィードバックを導き出す新しいリフレクション・アンド・ディベート(D&R)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-04T03:52:20Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Adaptive Thinking via Mode Policy Optimization for Social Language Agents [75.3092060637826]
動的社会的相互作用における言語エージェントの適応的思考能力を改善するための枠組みを提案する。
本フレームワークは,(1)多言語思考モード設計,(2)コンテキスト認識モード切り替え,(3)深度適応処理によるトークン効率推論の3つの重要な側面において,既存の研究を推し進めている。
論文 参考訳(メタデータ) (2025-05-04T15:39:58Z) - Understanding Bias Reinforcement in LLM Agents Debate [28.36216398327389]
大規模言語モデル(LLM)は、プロンプトエンジニアリングやコンテキスト内学習のようなトレーニング不要の手法を使って複雑な問題を解決する。
自己整合性や自己整合性といった自己補正手法は信頼性の向上を目的としている。
バイアス強化と視点の多様性の欠如です。
論文 参考訳(メタデータ) (2025-03-21T02:51:30Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating the Performance of Large Language Models via Debates [43.40134389150456]
大規模言語モデル(LLM)は急速に進化し、様々な分野に影響を与えています。
パフォーマンス評価の現在のほとんどのアプローチは、固定されたドメイン固有の質問に基づいているか、あるいは人間の入力に依存している。
本稿では,LLM間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、議論的推論や矛盾認識といったスキルも評価する。
論文 参考訳(メタデータ) (2024-06-16T19:02:31Z) - Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM [51.43102092480804]
Debatrixは、Large Language Models (LLMs)に基づく自動ディスカッションジャッジである。
実世界の議論シナリオに合わせるため、私たちはPanelBenchベンチマークを導入し、システムの性能と実際の議論結果を比較した。
以上の結果から,LSMを直接使用して議論評価を行ない,顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-03-12T18:19:47Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - $\{\text{PF}\}^2\text{ES}$: Parallel Feasible Pareto Frontier Entropy
Search for Multi-Objective Bayesian Optimization Under Unknown Constraints [4.672142224503371]
本稿では,多目的ベイズ最適化のための情報理論獲得関数を提案する。
$textPF2$ESは、並列設定のための相互情報の低コストで正確な見積もりを提供する。
合成問題と実生活問題で$textPF2$ESをベンチマークします。
論文 参考訳(メタデータ) (2022-04-11T21:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。