論文の概要: Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.13115v1
- Date: Mon, 19 Jan 2026 14:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.940351
- Title: Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning
- Title(参考訳): 強化学習による文脈的推論を用いたエージェント会話探索
- Authors: Fengran Mo, Yifan Gao, Sha Li, Hansi Zeng, Xin Liu, Zhaoxuan Tan, Xian Li, Jianshu Chen, Dakuo Wang, Meng Jiang,
- Abstract要約: 本稿では,RL学習を通じて学習した探索的,適応的な行動を可能にする,交互に探索と推論をインターリーブする対話エージェントを提案する。
広く使われている4つの対話型ベンチマークによる実験結果から,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 66.52010873968383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become a popular interface for human-AI interaction, supporting information seeking and task assistance through natural, multi-turn dialogue. To respond to users within multi-turn dialogues, the context-dependent user intent evolves across interactions, requiring contextual interpretation, query reformulation, and dynamic coordination between retrieval and generation. Existing studies usually follow static rewrite, retrieve, and generate pipelines, which optimize different procedures separately and overlook the mixed-initiative action optimization simultaneously. Although the recent developments in deep search agents demonstrate the effectiveness in jointly optimizing retrieval and generation via reasoning, these approaches focus on single-turn scenarios, which might lack the ability to handle multi-turn interactions. We introduce a conversational agent that interleaves search and reasoning across turns, enabling exploratory and adaptive behaviors learned through reinforcement learning (RL) training with tailored rewards towards evolving user goals. The experimental results across four widely used conversational benchmarks demonstrate the effectiveness of our methods by surpassing several existing strong baselines.
- Abstract(参考訳): 大規模言語モデル (LLMs) は人間とAIのインタラクションの一般的なインターフェースとなり、自然と多ターンの対話を通じて情報探索とタスク支援を支援している。
マルチターンダイアログ内のユーザに対応するために、コンテキスト依存のユーザ意図は、コンテキスト解釈、クエリ再構成、検索と生成の間の動的調整を必要とする、インタラクション間で進化する。
既存の研究は通常、静的に書き直し、検索し、パイプラインを生成し、異なる手順を個別に最適化し、混合開始アクション最適化を同時に見落としている。
近年のディープサーチエージェントの開発は、推論による検索と生成を協調的に最適化する効果を示しているが、これらのアプローチは、マルチターンインタラクションを扱う能力に欠けるシングルターンシナリオに焦点を当てている。
本稿では,探索と推論を交互に行う対話エージェントを導入し,ユーザ目標の進化に向けて適切な報酬を付与した強化学習(RL)トレーニングを通じて学習した探索的かつ適応的な行動を可能にする。
4つの広く使われている対話型ベンチマークによる実験結果から,既存の強靭なベースラインを超越した手法の有効性が示された。
関連論文リスト
- Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。
提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文 参考訳(メタデータ) (2025-10-19T16:46:11Z) - UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。
目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。
5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-09T17:02:40Z) - Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models [8.08979200534563]
現実世界のアプリケーションは洗練されたマルチターンインタラクションを必要とする。
大規模言語モデル(LLM)の最近の進歩は、シングルターンタスクを扱う能力に革命をもたらした。
論文 参考訳(メタデータ) (2025-04-07T04:00:08Z) - A Survey on Multi-Turn Interaction Capabilities of Large Language Models [47.05742294162551]
対話システム研究におけるマルチターンインタラクションは、複数の対話システムにまたがるコンテキストを維持するシステムの能力を指す。
大規模言語モデル(LLM)の最近の進歩は、マルチターンインタラクションの範囲を大きく広げている。
論文 参考訳(メタデータ) (2025-01-17T05:21:49Z) - Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。