論文の概要: Improving Multi-turn Dialogue Consistency with Self-Recall Thinking
- arxiv url: http://arxiv.org/abs/2605.15102v1
- Date: Thu, 14 May 2026 17:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.977564
- Title: Improving Multi-turn Dialogue Consistency with Self-Recall Thinking
- Title(参考訳): 自己リコール思考によるマルチターン対話の整合性向上
- Authors: Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang,
- Abstract要約: 大規模言語モデル(LLM)ベースのマルチターン対話システムは、非隣接のターン間の依存関係を追跡するのに苦労することが多い。
本稿では,長期的コンテキスト依存と疎結合な情報信号に対処するフレームワークであるセルフリコール思考(SRT)を提案する。
複数のデータセットの実験では、SRTはF1スコアを4.7%改善し、エンドツーエンドのレイテンシを14.7%削減している。
- 参考スコア(独自算出の注目度): 13.308970592702602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) based multi-turn dialogue systems often struggle to track dependencies across non-adjacent turns, undermining both consistency and scalability. As conversations lengthen, essential information becomes sparse and is buried in irrelevant context, while processing the entire dialogue history incurs severe efficiency bottlenecks. Existing solutions either rely on high latency external memory or lose fine-grained details through iterative summarization. In this paper, we propose Self-Recall Thinking (SRT), a framework designed to address long-range contextual dependency and sparse informative signals in multi-turn dialogue. SRT identifies helpful historical turns and uses them to generate contextually appropriate responses, enabling the model to selectively recall and reason over context during inference. This process yields an endogenous reasoning process that integrates interpretable recall steps without external modules. SRT incorporates: (1) Dependency Construction: Generating and converting it into self-recall chains; (2)Capability Initialization: Training to enable reasoning chains with recall tokens capability; (3)Reasoning Improvement: Refining accuracy via verifiable rewards to optimize recall and reasoning for correct answers. Experiments on multiple datasets demonstrate that SRT improves F1 score by 4.7% and reduces end-to-end latency by 14.7% over prior methods, achieving a balance between reasoning latency and accuracy, and outperforming state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのマルチターン対話システムは、非隣接のターン間の依存関係を追跡するのに苦労することが多く、一貫性とスケーラビリティの両方を損なう。
会話が長引くにつれて、本質的な情報は疎くなり、無関係な文脈に埋もれてしまう。
既存のソリューションは、高レイテンシの外部メモリに依存するか、反復的な要約によって細かな詳細を失うかのいずれかである。
本稿では,長期の文脈依存に対処し,多元対話における情報伝達を疎結合にするためのフレームワークとして,SRT(Self-Recall Thinking)を提案する。
SRTは有用な履歴ターンを特定し、それらをコンテキスト的に適切な応答を生成するために使用し、モデルが推論中にコンテキストを選択的にリコールし、推論することができる。
このプロセスは、外部モジュールなしで解釈可能なリコールステップを統合する内在的推論プロセスを生成する。
依存性構築:それを自己リコールチェーンに生成・変換する(2)キャパビリティの初期化:リコールトークン機能付き推論チェーンを可能にするトレーニング、(3)リレーソン改善:検証可能な報酬によって精度を改善し、リコールと正しい回答の推論を最適化する。
複数のデータセットの実験では、SRTがF1スコアを4.7%改善し、従来の方法よりもエンドツーエンドのレイテンシを14.7%削減し、推論レイテンシと精度のバランスを達成し、最先端のベースラインを上回ることが示されている。
関連論文リスト
- Back to Basics: Let Conversational Agents Remember with Just Retrieval and Generation [36.056012318684175]
既存の会話記憶システムは、長期対話履歴を管理するために複雑な階層化や強化学習に依存している。
我々は2つの重要な現象を識別する:textitDecisive Evidence SparsityとtextitDual-Level Redundancy
これらの知見に触発されて,会話記憶を基本に戻す最小限のフレームワークであるメソッドを提案する。
論文 参考訳(メタデータ) (2026-04-13T15:38:43Z) - Self-Correcting RAG: Enhancing Faithfulness via MMKP Context Selection and NLI-Guided MCTS [5.711356514732554]
自己補正RAGは、制約付き最適化と経路計画として検索と生成を再構成する。
入力側では、コンテキスト選択を多次元多重選択knapsack問題(MMKP)として定式化する。
出力側では、自然言語推論(NLI)誘導モンテカルロ木探索(MCTS)機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T17:14:36Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents [80.33280979339123]
強化学習(RL)を用いた時間認識メモリ選択ポリシーを学習するフレームワークであるMemory-T1を紹介する。
Time-Dialogベンチマークでは、Memory-T1が7Bモデルを67.0%に引き上げ、オープンソースモデルの新たな最先端パフォーマンスを確立した。
論文 参考訳(メタデータ) (2025-12-23T06:37:29Z) - Rhea: Role-aware Heuristic Episodic Attention for Conversational LLMs [36.91809943381492]
大規模言語モデル(LLM)はシングルターンタスクにおいて顕著な性能を達成しているが、その効果はマルチターン会話において悪化している。
本稿では,会話履歴を2つの機能独立メモリモジュールに分離する新しいフレームワークRheaを提案する。
実験により、Rheaは性能低下を緩和し、総合的な精度を10点スケールで1.04ポイント向上することが示された。
論文 参考訳(メタデータ) (2025-12-07T14:50:03Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - D-SMART: Enhancing LLM Dialogue Consistency via Dynamic Structured Memory And Reasoning Tree [22.420810089099614]
大規模言語モデル(LLM)は、拡張された多ターン対話において、現実的な矛盾と論理的崩壊を示すことが多い。
マルチターン対話の一貫性を維持するために設計されたモデルに依存しないフレームワークであるD--101を提案する。
マルチターン対話の整合性を測定するために,NLIに基づく新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2025-10-15T09:53:11Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。