論文の概要: ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
- arxiv url: http://arxiv.org/abs/2510.13312v1
- Date: Wed, 15 Oct 2025 09:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.582435
- Title: ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering
- Title(参考訳): ChatR1:会話推論のための強化学習と検索質問回答
- Authors: Simon Lupart, Mohammad Aliannejadi, Evangelos Kanoulas,
- Abstract要約: 会話型質問応答(CQA)のための強化学習(RL)に基づく推論フレームワークChatR1を提案する。
ChatR1は回転する探索と推論をインターリーブし、RLを通して学習された探索的かつ適応的な行動を可能にする。
提案したChatR1は、3Bモデルと7Bモデルの両方のバックボーンで強力な性能を示し、5つのCQAデータセットで競合モデルを上回っている。
- 参考スコア(独自算出の注目度): 30.81641818112445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ChatR1, a reasoning framework based on reinforcement learning (RL) for conversational question answering (CQA). Reasoning plays an important role in CQA, where user intent evolves across dialogue turns, and utterances are often underspecified, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Unlike static `rewrite, retrieve, and generate' pipelines, ChatR1 interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through RL. To address the challenge of sparse and delayed rewards in RL, we propose an intent-aware reward that provides turn-level feedback by aligning retrieval and reasoning with evolving user goals. Our proposed ChatR1 demonstrates strong performance on both 3B and 7B model backbones, outperforming competitive models on five CQA datasets, measured by different metrics (F1, BERTScore, and LLM-as-judge). We include a diverse set of CQA datasets to cover topic shifts, evolving intents, mixed-initiative dialogues, and multi-document grounding, testing ChatR1's performance from various aspects. Ablation studies confirm the effectiveness of the intent-aware reward. Our analyses further reveal diverse reasoning trajectories and effective use of the search tool. ChatR1 also generalizes robustly across domains, demonstrating that RL-based reasoning enables more flexible and context-sensitive behavior than static CQA pipelines.
- Abstract(参考訳): 本稿では,会話型質問応答(CQA)のための強化学習(RL)に基づく推論フレームワークChatR1を提案する。
推論はCQAにおいて重要な役割を担い、ユーザの意図が対話の方向をまたいで進化し、発話はしばしば不特定であり、文脈解釈、クエリの再構成、検索と生成の間の動的調整が必要である。
静的な‘rewrite, retrieve, generate’パイプラインとは異なり、ChatR1はターン間で検索と推論をインターリーブし、RLを通じて学習した探索的かつ適応的な動作を可能にする。
RLにおけるスパースと遅延報酬の課題に対処するために,検索と推論をユーザ目標の進化に合わせることで,ターンレベルのフィードバックを提供する意図認識報酬を提案する。
提案したChatR1は,5つのCQAデータセット(F1,BERTScore,LSM-as-judge)の競合モデルよりも高い性能を示す。
トピックシフト、進化するインテント、混合開始ダイアログ、マルチドキュメントグラウンド、さまざまな側面からChatR1のパフォーマンスをテストするためのさまざまなCQAデータセットが含まれています。
アブレーション研究は、意図認識報酬の有効性を裏付けるものである。
分析により,多種多様な推論の軌跡と検索ツールの有効利用が明らかになった。
ChatR1はまた、ドメインをまたいで堅牢に一般化し、RLベースの推論が静的CQAパイプラインよりも柔軟でコンテキストに敏感な振る舞いを可能にすることを示した。
関連論文リスト
- ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。
コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。
対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文 参考訳(メタデータ) (2024-10-30T15:06:32Z) - AdaCQR: Enhancing Query Reformulation for Conversational Search via Sparse and Dense Retrieval Alignment [16.62505706601199]
本稿では,対話型検索再構成のための新しいフレームワークAdaCQRを提案する。
AdaCQRは、情報検索クエリの一般化性を向上させる。
TopiOCQAとQReCCデータセットの実験結果は、AdaCQRが既存のメソッドをより効率的なフレームワークで上回ることを示した。
論文 参考訳(メタデータ) (2024-07-02T05:50:16Z) - Response Enhanced Semi-supervised Dialogue Query Generation [40.17161986495854]
ラベルのない会話でモデル性能を向上させるための半教師付き学習フレームワーク、SemiDQGを提案する。
まず、類似性に基づくクエリ選択手法を適用し、高品質なRA生成擬似クエリを選択する。
我々は、QPをさらに強化するためにREINFORCEアルゴリズムを採用し、RAによる報酬をきめ細かい訓練信号として利用する。
論文 参考訳(メタデータ) (2023-12-20T02:19:54Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Conversational Query Rewriting with Self-supervised Learning [36.392717968127016]
Conversational Query Rewriting (CQR) は、会話クエリを自己完結した発話に明示的に書き換えることによって、マルチターン対話を単一ターン問題に単純化することを目的としている。
既存のアプローチは、アノテートに労働集約的な大規模な教師付きトレーニングデータに依存している。
我々は,人間のアノテーションを必要としない自己教師付き学習により,大規模CQRデータセットを自動構築することを提案する。
論文 参考訳(メタデータ) (2021-02-09T08:57:53Z) - CR-Walker: Tree-Structured Graph Reasoning and Dialog Acts for
Conversational Recommendation [62.13413129518165]
CR-Walkerは知識グラフ上で木構造推論を行うモデルである。
インフォメーションダイアログが生成され、言語生成をガイドする。
自動的および人的評価は、CR-Walkerがより正確なレコメンデーションに到達できることを示している。
論文 参考訳(メタデータ) (2020-10-20T14:53:22Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。