論文の概要: Proactive Guidance of Multi-Turn Conversation in Industrial Search
- arxiv url: http://arxiv.org/abs/2505.24251v1
- Date: Fri, 30 May 2025 06:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.798725
- Title: Proactive Guidance of Multi-Turn Conversation in Industrial Search
- Title(参考訳): 産業検索における多段階会話の積極的な指導
- Authors: Xiaoyu Li, Xiao Li, Li Gao, Yiding Liu, Xiaoyang Wang, Shuaiqiang Wang, Junfeng Wang, Dawei Yin,
- Abstract要約: プロアクティブガイダンスを提供するための新しい2段階フレームワークを提案する。
Goal-Adaptive Supervised Fine-Tuning (G-SFT)はゴール関連コンテキスト情報を提供する。
クリック指向強化学習(C-RL)は、ユーザのクリック信号から好みのペアを構築し、クリックスルー率を積極的に改善する。
- 参考スコア(独自算出の注目度): 38.18559057329515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of Large Language Models (LLMs) has significantly advanced multi-turn conversation systems, emphasizing the need for proactive guidance to enhance users' interactions. However, these systems face challenges in dynamically adapting to shifts in users' goals and maintaining low latency for real-time interactions. In the Baidu Search AI assistant, an industrial-scale multi-turn search system, we propose a novel two-phase framework to provide proactive guidance. The first phase, Goal-adaptive Supervised Fine-Tuning (G-SFT), employs a goal adaptation agent that dynamically adapts to user goal shifts and provides goal-relevant contextual information. G-SFT also incorporates scalable knowledge transfer to distill insights from LLMs into a lightweight model for real-time interaction. The second phase, Click-oriented Reinforcement Learning (C-RL), adopts a generate-rank paradigm, systematically constructs preference pairs from user click signals, and proactively improves click-through rates through more engaging guidance. This dual-phase architecture achieves complementary objectives: G-SFT ensures accurate goal tracking, while C-RL optimizes interaction quality through click signal-driven reinforcement learning. Extensive experiments demonstrate that our framework achieves 86.10% accuracy in offline evaluation (+23.95% over baseline) and 25.28% CTR in online deployment (149.06% relative improvement), while reducing inference latency by 69.55% through scalable knowledge distillation.
- Abstract(参考訳): LLM(Large Language Models)の進化は、ユーザのインタラクションを強化するための積極的なガイダンスの必要性を強調し、非常に先進的なマルチターン会話システムを実現している。
しかし、これらのシステムは、ユーザの目標のシフトに動的に適応し、リアルタイムインタラクションの低レイテンシを維持する上で、課題に直面している。
産業規模のマルチターン検索システムであるBaidu Search AIアシスタントにおいて,プロアクティブガイダンスを提供するための新しい2段階フレームワークを提案する。
第1フェーズであるG-SFT(Goal-Adaptive Supervised Fine-Tuning)では,ユーザの目標シフトに動的に対応し,目標関連コンテキスト情報を提供する目標適応エージェントが使用されている。
G-SFTはまた、LLMから洞察を抽出するスケーラブルな知識伝達をリアルタイムインタラクションのための軽量モデルに組み込んでいる。
第2フェーズであるClick-oriented Reinforcement Learning (C-RL)は、ジェネレーションランクのパラダイムを採用し、ユーザのクリック信号から好みのペアを体系的に構築し、より魅力的なガイダンスを通じてクリックスルー率を積極的に改善する。
G-SFTは正確な目標追跡を保証し、C-RLはクリック信号駆動強化学習によって相互作用品質を最適化する。
大規模な実験により、我々のフレームワークはオフライン評価で86.10%の精度(ベースライン以上で+23.95%)、オンラインデプロイメントで25.28%のCTR(149.06%の相対的な改善)を達成し、スケーラブルな知識蒸留により推論遅延を69.55%削減した。
関連論文リスト
- Graph Based Deep Reinforcement Learning Aided by Transformers for Multi-Agent Cooperation [2.8169258551959544]
本稿では、グラフニューラルネットワーク(GNN)、深層強化学習(DRL)、マルチエージェント協調と集合タスク実行の強化のためのトランスフォーマーベースのメカニズムを統合する新しいフレームワークを提案する。
提案手法はGNNを用いて,適応グラフ構築によるエージェントエージェントとエージェントゴールの相互作用をモデル化し,制約付き通信下での効率的な情報集約と意思決定を可能にする。
論文 参考訳(メタデータ) (2025-04-11T01:46:18Z) - GPT Meets Graphs and KAN Splines: Testing Novel Frameworks on Multitask Fine-Tuned GPT-2 with LoRA [0.0]
本稿では,学習可能なモジュールと解釈可能なモジュール,特にKAN(Kolmogorov-Arnold Networks)とグラフベース表現(GPT-2モデル)を統合する可能性について検討する。
論文 参考訳(メタデータ) (2025-03-25T19:58:25Z) - DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation [78.60543357822957]
高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。
DexHandDiffは,適応的デキスタラス操作のための対話型拡散計画フレームワークである。
当社のフレームワークは, 目標適応度の高いタスクにおいて, 平均70.7%の成功率を実現し, コンタクトリッチな操作における堅牢性と柔軟性を強調した。
論文 参考訳(メタデータ) (2024-11-27T18:03:26Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment [74.40196814292426]
本稿では,新規かつ直感的なガイダンスベース知識伝達(GKT)フレームワークを提案する。
GKTは'teacher'として大きな言語モデルを使用し、ガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。
GSM8Kの最大精度は14.18%、GSM8Kの10.72倍、精度は14.00%、CSQAの7.73倍である。
論文 参考訳(メタデータ) (2024-05-30T02:37:35Z) - RLEEGNet: Integrating Brain-Computer Interfaces with Adaptive AI for
Intuitive Responsiveness and High-Accuracy Motor Imagery Classification [0.0]
本稿では,Deep Q-Networks (DQN) を用いた強化学習を分類タスクに活用するフレームワークを提案する。
本稿では,OVR(One-Versus-The-Rest)方式で,マルチクラス運動画像(MI)分類のための前処理手法を提案する。
DQNと1D-CNN-LSTMアーキテクチャの統合は意思決定プロセスをリアルタイムで最適化する。
論文 参考訳(メタデータ) (2024-02-09T02:03:13Z) - HiFlash: Communication-Efficient Hierarchical Federated Learning with
Adaptive Staleness Control and Heterogeneity-aware Client-Edge Association [38.99309610943313]
フェデレートラーニング(FL)は、巨大なクライアント間で共有モデルを協調的に学習することのできる、有望なパラダイムである。
多くの既存のFLシステムでは、クライアントは大規模なデータサイズのモデルパラメータを、ワイドエリアネットワーク(WAN)を介してリモートクラウドサーバと頻繁に交換する必要がある。
我々は、モバイルエッジコンピューティングの利点を享受するHiFLの階層的フェデレーション学習パラダイムを活用している。
論文 参考訳(メタデータ) (2023-01-16T14:39:04Z) - Ada-Segment: Automated Multi-loss Adaptation for Panoptic Segmentation [95.31590177308482]
我々は,トレーニング期間中に複数のトレーニング損失を柔軟に調整する自動マルチロス適応(ada-segment)を提案する。
エンドツーエンドアーキテクチャにより、ada-segmentはハイパーパラメータを再チューニングすることなく、異なるデータセットに一般化する。
Ada-Segmentは、バニラベースラインからCOCOval分割に2.7%のパノラマ品質(PQ)改善をもたらし、COCOテストデブ分割に最新の48.5%PQ、ADE20Kデータセットに32.9%PQを達成しました。
論文 参考訳(メタデータ) (2020-12-07T11:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。