論文の概要: DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2505.07049v1
- Date: Sun, 11 May 2025 16:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.181336
- Title: DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs
- Title(参考訳): ダイアログ推論: LLMにおけるルールベースRLSparkのダイアログ推論
- Authors: Yubo Shu, Zhewei Huang, Xin Wu, Chen Hu, Shuchang Zhou, Daxin Jiang,
- Abstract要約: 本稿では,モノローグ型推論モデルにおける失われた役割を明らかにする推論パラダイムであるDialogueReasonを提案する。
本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
- 参考スコア(独自算出の注目度): 54.4857963044859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DialogueReason, a reasoning paradigm that uncovers the lost roles in monologue-style reasoning models, aiming to boost diversity and coherency of the reasoning process. Recent advances in RL-based large reasoning models have led to impressive long CoT capabilities and high performance on math and science benchmarks. However, these reasoning models rely mainly on monologue-style reasoning, which often limits reasoning diversity and coherency, frequently recycling fixed strategies or exhibiting unnecessary shifts in attention. Our work consists of an analysis of monologue reasoning patterns and the development of a dialogue-based reasoning approach. We first introduce the Compound-QA task, which concatenates multiple problems into a single prompt to assess both diversity and coherency of reasoning. Our analysis shows that Compound-QA exposes weaknesses in monologue reasoning, evidenced by both quantitative metrics and qualitative reasoning traces. Building on the analysis, we propose a dialogue-based reasoning, named DialogueReason, structured around agents, environment, and interactions. Using PPO with rule-based rewards, we train open-source LLMs (Qwen-QWQ and Qwen-Base) to adopt dialogue reasoning. We evaluate trained models on MATH, AIME, and GPQA datasets, showing that the dialogue reasoning model outperforms monologue models under more complex compound questions. Additionally, we discuss how dialogue-based reasoning helps enhance interpretability, facilitate more intuitive human interaction, and inspire advances in multi-agent system design.
- Abstract(参考訳): 本稿では,モノローグ型推論モデルにおける失われた役割を明らかにするための推論パラダイムであるDialogueReasonを提案する。
RLベースの大規模推論モデルの最近の進歩は、数学と科学のベンチマークにおいて、非常に長いCoT能力と高いパフォーマンスをもたらしている。
しかしながら、これらの推論モデルは主としてモノローグスタイルの推論に依存しており、しばしば多様性と一貫性の推論を制限したり、固定戦略を頻繁にリサイクルしたり、不必要な注意の変化を示す。
本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
まず、複数の問題を1つのプロンプトにまとめて、多様性と推論の一貫性の両方を評価する複合QAタスクを紹介する。
分析の結果,複合QAは定量測定値と定性的推論トレースの両方で証明されたモノローグ推論の弱点を明らかにすることがわかった。
この分析に基づいて,エージェント,環境,インタラクションを中心に構築された対話型推論,ダイアログ推論を提案する。
ルールベースの報酬でPPOを用いて、オープンソースのLCM(Qwen-QWQとQwen-Base)をトレーニングし、対話推論を採用する。
我々はMATH, AIME, GPQAデータセットの学習モデルの評価を行い, 対話推論モデルはより複雑な複合質問下でのモノローグモデルよりも優れていることを示した。
さらに,対話に基づく推論が解釈可能性の向上,より直感的なヒューマンインタラクションの促進,マルチエージェントシステム設計の進歩を促すことについても論じる。
関連論文リスト
- Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue Summarization [9.994839971567542]
本報告では, 最先端の推論LDMと非推論LDMの総合的, 体系的評価について述べる。
他の推論集約的なタスクの傾向とは対照的に、明示的な段階的推論は対話の要約品質を常に改善しない。
論文 参考訳(メタデータ) (2025-07-02T21:02:41Z) - Thinking About Thinking: SAGE-nano's Inverse Reasoning for Self-Aware Language Models [0.0]
大規模言語モデル(LLM)は、Chain-of-Thoughtプロンプトで複雑な推論タスクを解く際、顕著な能力を示した。
我々は, LLM を分解し, 自己の推論連鎖をポストホックで説明できる新しいパラダイムであるtextbfinverse reasoning を紹介した。
私たちの研究は、透明なAIシステムのための新たな道を作り、AIの安全性、教育、科学的発見において大きなギャップを埋めます。
論文 参考訳(メタデータ) (2025-06-30T09:53:41Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Dialogue Chain-of-Thought Distillation for Commonsense-aware
Conversational Agents [35.6393824052347]
本稿では,対話連鎖推論(CoT)の枠組みを提案する。
DOCTOR, DialOgue Chain-of-Thught Reasonerについて紹介する。
我々は,DOCTORから高品質な理性を持つ対話エージェントの強化が,応答の質を著しく向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-10-13T18:17:23Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - FCM: A Fine-grained Comparison Model for Multi-turn Dialogue Reasoning [44.24589471800725]
本稿では,この問題に対処するための細粒度比較モデル(FCM)を提案する。
読解における人間の行動に触発され,各応答候補の表現の微妙な相違に着目した比較機構が提案されている。
論文 参考訳(メタデータ) (2021-09-22T04:16:11Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。