論文の概要: DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2505.07049v1
- Date: Sun, 11 May 2025 16:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.181336
- Title: DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs
- Title(参考訳): ダイアログ推論: LLMにおけるルールベースRLSparkのダイアログ推論
- Authors: Yubo Shu, Zhewei Huang, Xin Wu, Chen Hu, Shuchang Zhou, Daxin Jiang,
- Abstract要約: 本稿では,モノローグ型推論モデルにおける失われた役割を明らかにする推論パラダイムであるDialogueReasonを提案する。
本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
- 参考スコア(独自算出の注目度): 54.4857963044859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DialogueReason, a reasoning paradigm that uncovers the lost roles in monologue-style reasoning models, aiming to boost diversity and coherency of the reasoning process. Recent advances in RL-based large reasoning models have led to impressive long CoT capabilities and high performance on math and science benchmarks. However, these reasoning models rely mainly on monologue-style reasoning, which often limits reasoning diversity and coherency, frequently recycling fixed strategies or exhibiting unnecessary shifts in attention. Our work consists of an analysis of monologue reasoning patterns and the development of a dialogue-based reasoning approach. We first introduce the Compound-QA task, which concatenates multiple problems into a single prompt to assess both diversity and coherency of reasoning. Our analysis shows that Compound-QA exposes weaknesses in monologue reasoning, evidenced by both quantitative metrics and qualitative reasoning traces. Building on the analysis, we propose a dialogue-based reasoning, named DialogueReason, structured around agents, environment, and interactions. Using PPO with rule-based rewards, we train open-source LLMs (Qwen-QWQ and Qwen-Base) to adopt dialogue reasoning. We evaluate trained models on MATH, AIME, and GPQA datasets, showing that the dialogue reasoning model outperforms monologue models under more complex compound questions. Additionally, we discuss how dialogue-based reasoning helps enhance interpretability, facilitate more intuitive human interaction, and inspire advances in multi-agent system design.
- Abstract(参考訳): 本稿では,モノローグ型推論モデルにおける失われた役割を明らかにするための推論パラダイムであるDialogueReasonを提案する。
RLベースの大規模推論モデルの最近の進歩は、数学と科学のベンチマークにおいて、非常に長いCoT能力と高いパフォーマンスをもたらしている。
しかしながら、これらの推論モデルは主としてモノローグスタイルの推論に依存しており、しばしば多様性と一貫性の推論を制限したり、固定戦略を頻繁にリサイクルしたり、不必要な注意の変化を示す。
本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
まず、複数の問題を1つのプロンプトにまとめて、多様性と推論の一貫性の両方を評価する複合QAタスクを紹介する。
分析の結果,複合QAは定量測定値と定性的推論トレースの両方で証明されたモノローグ推論の弱点を明らかにすることがわかった。
この分析に基づいて,エージェント,環境,インタラクションを中心に構築された対話型推論,ダイアログ推論を提案する。
ルールベースの報酬でPPOを用いて、オープンソースのLCM(Qwen-QWQとQwen-Base)をトレーニングし、対話推論を採用する。
我々はMATH, AIME, GPQAデータセットの学習モデルの評価を行い, 対話推論モデルはより複雑な複合質問下でのモノローグモデルよりも優れていることを示した。
さらに,対話に基づく推論が解釈可能性の向上,より直感的なヒューマンインタラクションの促進,マルチエージェントシステム設計の進歩を促すことについても論じる。
関連論文リスト
- Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Dialogue Chain-of-Thought Distillation for Commonsense-aware
Conversational Agents [35.6393824052347]
本稿では,対話連鎖推論(CoT)の枠組みを提案する。
DOCTOR, DialOgue Chain-of-Thught Reasonerについて紹介する。
我々は,DOCTORから高品質な理性を持つ対話エージェントの強化が,応答の質を著しく向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-10-13T18:17:23Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - FCM: A Fine-grained Comparison Model for Multi-turn Dialogue Reasoning [44.24589471800725]
本稿では,この問題に対処するための細粒度比較モデル(FCM)を提案する。
読解における人間の行動に触発され,各応答候補の表現の微妙な相違に着目した比較機構が提案されている。
論文 参考訳(メタデータ) (2021-09-22T04:16:11Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。