論文の概要: OnePred: Next-Query Prediction via Recursive Intent Memory in Multi-Turn Conversations
- arxiv url: http://arxiv.org/abs/2605.23668v1
- Date: Fri, 22 May 2026 14:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.38605
- Title: OnePred: Next-Query Prediction via Recursive Intent Memory in Multi-Turn Conversations
- Title(参考訳): OnePred:マルチスレッド会話における再帰インテントメモリによる次クエリ予測
- Authors: Jiangwang Chen, Bowen Zhang, Zixin Song, Jiazheng Kang, Xiao Yang, Da Zhu, Guanjun Jiang,
- Abstract要約: 大規模言語モデル (LLM) 対話システムは毎日数百万のマルチターン対話を処理する。
次クエリ予測は、先行するダイアログのみに基づいて、ユーザのその後のクエリを予測する。
OnePredは、トピック、未解決のニーズ、関心の変化をまたいだユーザの進化する意図の軌跡を追跡する。
- 参考スコア(独自算出の注目度): 6.89645931986174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language model (LLM) conversational systems process millions of multi-turn dialogues daily, they remain fundamentally reactive: they respond only after the user types a query. A key step toward proactive interaction is next-query prediction, which anticipates the user's subsequent query based solely on the preceding dialogue. Progress on this task is hindered by the lack of dedicated benchmarks and a fundamental efficiency--quality trade-off: naively concatenating full dialogue history incurs linearly growing token consumption, while truncating to the latest turn discards crucial cross-turn context. Our key insight is that accurate prediction does not require re-reading raw history; it suffices to track the user's evolving intent trajectory across topics, unresolved needs, and interest shifts. We propose OnePred, which maintains a recursively updated memory as its sole cross-turn context, bounding the per-turn cost independently of conversation length. We train the model via a two-stage reinforcement learning pipeline that first teaches what to predict, then what to compress, shaping the memory into a prediction-oriented intent chain. To establish a rigorous testbed, we introduce NQP-Bench, spanning three diverse subsets. Experiments demonstrate that OnePred reduces per-turn token consumption by up to 22$\times$ compared to full-history inputs while consistently exceeding all baselines in prediction quality, with larger gains on longer conversations. Our code is publicly available at https://github.com/ZBWpro/OnePred.
- Abstract(参考訳): 大規模言語モデル(LLM)の対話システムは、数百万のマルチターン対話を毎日処理するが、基本的には反応しない。
アクティブなインタラクションに向けた重要なステップは、次のクエリ予測である。
このタスクの進歩は、専用のベンチマークの欠如と、基本的な効率-品質のトレードオフによって妨げられている。
私たちの重要な洞察は、正確な予測は生の履歴を再読む必要はなく、トピックや未解決ニーズ、関心の変化といったユーザの進化する意図の軌跡を追跡するのに十分である、ということです。
本論文では,再帰的に更新されたメモリを単独のクロスターンコンテキストとして維持するOnePredを提案する。
2段階の強化学習パイプラインを通じてモデルをトレーニングし、まず何を予測し、次に何を圧縮するかを教え、メモリを予測指向のインテントチェーンに形成する。
厳密なテストベッドを確立するために、3つの異なるサブセットにまたがるNQP-Benchを導入する。
実験の結果、OnePredは全史的な入力と比較してターン当たりのトークン消費量を最大22$\times$まで削減し、予測品質のベースラインを一貫して上回り、会話の長大化を図っている。
私たちのコードはhttps://github.com/ZBWpro/OnePred.comで公開されています。
関連論文リスト
- PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments [72.02445514666428]
静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。
PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
論文 参考訳(メタデータ) (2026-03-24T14:04:11Z) - LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [59.12542274007847]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。
LoopServeは、既存のベースラインに比べて一貫して優れた効率を実現している。
論文 参考訳(メタデータ) (2025-07-18T06:12:08Z) - Phrase Retrieval for Open-Domain Conversational Question Answering with
Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。
そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:46:38Z) - Re$^3$Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for
Long-Turn Open-Domain Dialogue Pre-training [90.3412708846419]
既存の事前学習コーパスのほとんどの対話は、3回未満の対話を含む。
数十億ドル規模のロングターン対話を自動的に構築するRetrieve, Reorganize, Rescale framework (Re$3$Dial)を提案する。
上記のプロセスを繰り返すことで、Re$3$Dialはコヒーレントなロングターン対話をもたらすことができる。
論文 参考訳(メタデータ) (2023-05-04T07:28:23Z) - A Graph-Based Context-Aware Model to Understand Online Conversations [3.8345539498627437]
オンライン会話では、コメントや返信は、すぐに関連する情報以外の外部のコンテキストに基づいている可能性がある。
グラフウォークを用いて会話のより広いコンテキストを組み込む新しいグラフベースのディープラーニングアーキテクチャであるGraphNLIを提案する。
極性予測と擬似的ヘイトスピーチ検出という2つのタスクでGraphNLIを評価する。
論文 参考訳(メタデータ) (2022-11-16T20:51:45Z) - Sparse and Dense Approaches for the Full-rank Retrieval of Responses for
Dialogues [11.726528038065764]
我々は、数百万のレスポンスを最大$n$で検索する、より現実的なレスポンス検索のタスクに焦点を当てている。
3つの異なる情報探索対話データセットに基づいて,学習された応答拡大手法がスパース検索の確固たるベースラインであることを明らかにする。
中間訓練で高密度な検索を行うのに最適な手法が得られ、次いでターゲットの会話データを微調整する。
論文 参考訳(メタデータ) (2022-04-22T08:15:15Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - Improved Goal Oriented Dialogue via Utterance Generation and Look Ahead [5.062869359266078]
ディープテキスト・トゥ・テキスト・ニューラルモデルをトレーニングし、ラベルなし対話データから連続したユーザ発話を生成することにより、インテント予測を改善することができる。
本稿では,ユーザの発話生成を用いて意図予測を時間内に改善する新しいルックアヘッド手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:12:48Z) - CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。
モデルは各話者にパーソナライズされる。
このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文 参考訳(メタデータ) (2021-03-31T01:15:37Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。