論文の概要: Optimizing for Persuasion Improves LLM Generalization: Evidence from Quality-Diversity Evolution of Debate Strategies
- arxiv url: http://arxiv.org/abs/2510.05909v1
- Date: Tue, 07 Oct 2025 13:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.267802
- Title: Optimizing for Persuasion Improves LLM Generalization: Evidence from Quality-Diversity Evolution of Debate Strategies
- Title(参考訳): 説得の最適化がLLM一般化を改善する:議論戦略の品質多様性進化の証拠
- Authors: Aksel Joonas Reedi, Corentin Léger, Julien Pourcel, Loris Gaven, Perrine Charriau, Guillaume Pourcel,
- Abstract要約: 大規模言語モデル(LLM)は、真理に富んだ回答を出力するために最適化され、しばしば過度に適合し、一般化に失敗する不安定な推論を生み出す。
DebateQDは,様々なカテゴリにまたがる多様な議論戦略を進化させる,最小品質多様性(QD)進化アルゴリズムである。
提案手法は,真理最適化の試験性能に適合または超越しながら,最大で13.94%の列車-試験一般化ギャップを達成可能であることを示す。
- 参考スコア(独自算出の注目度): 1.6163129903911513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) optimized to output truthful answers often overfit, producing brittle reasoning that fails to generalize. While persuasion-based optimization has shown promise in debate settings, it has not been systematically compared against mainstream truth-based approaches. We introduce DebateQD, a minimal Quality-Diversity (QD) evolutionary algorithm that evolves diverse debate strategies across different categories (rationality, authority, emotional appeal, etc.) through tournament-style competitions where two LLMs debate while a third judges. Unlike previously proposed methods that require a population of LLMs, our approach maintains diversity of opponents through prompt-based strategies within a single LLM architecture, making it more accessible for experiments while preserving the key benefits of population-based optimization. In contrast to prior work, we explicitly isolate the role of the optimization objective by fixing the debate protocol and swapping only the fitness function: persuasion rewards strategies that convince the judge irrespective of truth, whereas truth rewards collaborative correctness. Across three model scales (7B, 32B, 72B parameters) and multiple dataset sizes from the QuALITY benchmark, persuasion-optimized strategies achieve up to 13.94% smaller train-test generalization gaps, while matching or exceeding truth optimization's test performance. These results provide the first controlled evidence that competitive pressure to persuade, rather than seek the truth collaboratively, fosters more transferable reasoning skills, offering a promising path for improving LLM generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、真理に富んだ回答を出力するために最適化され、しばしば過度に適合し、一般化に失敗する不安定な推論を生み出す。
説得に基づく最適化は議論の場において有望であるが、主流の真理に基づくアプローチとは体系的に比較されていない。
DebateQDは、異なるカテゴリ(合理性、権威、感情的魅力など)で多様な議論戦略を進化させる、最小品質多様性(QD)進化アルゴリズムである。
LLMの個体数を必要とする従来提案の手法とは異なり,本手法は単一LLMアーキテクチャ内での迅速な戦略により,個体数に基づく最適化の重要な利点を保ちながら,実験に利用しやすくする。
従来の作業とは対照的に,議論プロトコルの修正と適合関数のみの交換により,最適化目標の役割を明確に分離する。
QuALITYベンチマークによる3つのモデルスケール(7B, 32B, 72Bパラメータ)と複数のデータセットサイズで、パーサーション最適化戦略は13.94%まで小さくなり、真理最適化のテスト性能は一致または超えた。
これらの結果は、真理を共同で探すよりもむしろ説得する競争圧力が、より伝達可能な推論スキルを育み、LLMの一般化を改善するための有望な道を提供するという、最初の制御された証拠である。
関連論文リスト
- Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization [6.3914079241545885]
提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索強化推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。
提案手法では,HelpSteer2データセットからトップk参照プロンプト-レスポンスペアを検索する。
CRPOは、高品位と低品位を明示的に対比することにより、あるプロンプトが成功する理由を推論し、他のプロンプトが失敗する理由を推測することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T08:45:29Z) - On the Adaptive Psychological Persuasion of Large Language Models [37.18479986426215]
我々は,Large Language Models (LLMs) が自律的に説得し,説得に抵抗できることを示した。
総合的な心理的説得戦略を11つ導入する。
最適戦略を自律的に選択するようにLLMを訓練する適応型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-07T13:52:50Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning [8.800516398660069]
大規模言語モデル(LLM)の推論能力を高めるための,有望なフレームワークとして,マルチエージェントコラボレーションが登場した。
本稿では,エージェントの初期応答の信頼性スコアに基づいて,議論を選択的に活性化する適応型マルチエージェント討論フレームワークであるDebate Only When Necessary (DOWN)を提案する。
ダウンは最大6倍の効率向上を実現し、既存のメソッドのパフォーマンスを保留する。
論文 参考訳(メタデータ) (2025-04-07T13:17:52Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome [13.731895847081953]
本稿では,現在進行中の説得会話において,ユーザの潜在人格次元(LPD)を追跡する新しいアプローチを提案する。
我々はこれらのLPDに基づいて、全体的な説得結果を最適化するために、調整済みの対物発話を生成する。
論文 参考訳(メタデータ) (2024-04-21T23:03:47Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。