論文の概要: SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2410.09580v1
- Date: Sat, 12 Oct 2024 16:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:35:29.843822
- Title: SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search
- Title(参考訳): SAPIENT: ストラテジックプランニングとモンテカルロ木探索によるマルチターン会話推薦のマスタリング
- Authors: Hanwen Du, Bo Peng, Xia Ning,
- Abstract要約: 既存の方法は、強欲な行動選択やサンプリング戦略を備えた強化学習エージェントを訓練する。
我々は,モンテカルロ木探索 (MCTS) ベースの CRS フレームワーク SAPIENT を提案する。
SAPIENTは会話エージェント(Sエージェント)と会話プランナー(Sプランナー)で構成される
- 参考スコア(独自算出の注目度): 5.079888940901933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational Recommender Systems (CRS) proactively engage users in interactive dialogues to elicit user preferences and provide personalized recommendations. Existing methods train Reinforcement Learning (RL)-based agent with greedy action selection or sampling strategy, and may suffer from suboptimal conversational planning. To address this, we present a novel Monte Carlo Tree Search (MCTS)-based CRS framework SAPIENT. SAPIENT consists of a conversational agent (S-agent) and a conversational planner (S-planner). S-planner builds a conversational search tree with MCTS based on the initial actions proposed by S-agent to find conversation plans. The best conversation plans from S-planner are used to guide the training of S-agent, creating a self-training loop where S-agent can iteratively improve its capability for conversational planning. Furthermore, we propose an efficient variant SAPIENT-e for trade-off between training efficiency and performance. Extensive experiments on four benchmark datasets validate the effectiveness of our approach, showing that SAPIENT outperforms the state-of-the-art baselines.
- Abstract(参考訳): Conversational Recommender Systems (CRS)は、対話的な対話を積極的に行い、ユーザの好みを導き、パーソナライズされたレコメンデーションを提供する。
既存の方法は、強欲な行動選択やサンプリング戦略を備えた強化学習(RL)ベースのエージェントを訓練し、最適な会話計画に悩まされる可能性がある。
そこで本研究では,モンテカルロ木探索(MCTS)に基づくCRSフレームワークSAPIENTを提案する。
SAPIENTは会話エージェント(Sエージェント)と会話プランナー(Sプランナー)で構成される。
S-plannerは、S-agentが会話計画を見つけるために提案した初期アクションに基づいて、MCTSを用いた会話検索ツリーを構築する。
S-プランナーの最良の会話プランは、S-エージェントの訓練をガイドするために使用され、S-エージェントが会話計画の能力を反復的に改善できる自己学習ループを作成する。
さらに,学習効率と性能のトレードオフを考慮した効率的なSAPIENT-eを提案する。
4つのベンチマークデータセットによる大規模な実験により、SAPIENTは最先端のベースラインよりも優れていることが示された。
関連論文リスト
- Planning with Large Language Models for Conversational Agents [51.12859325330882]
自律会話エージェント(CA)の制御性と能動性は重要な性質である
大規模言語モデル(LLM)を利用した計画型対話エージェントのための新しいフレームワークを提案する。
実験の結果,PCA-Dで微調整されたLCMは性能を著しく向上し,未確認領域に一般化できることがわかった。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Identifying Breakdowns in Conversational Recommender Systems using User Simulation [15.54070473873364]
本稿では,会話のブレークダウンに関して,会話レコメンデーションシステムをテストする手法を提案する。
システム間で発生した会話を調べ、事前に定義されたブレークダウンタイプに対してユーザをシミュレートする。
提案手法を既存の会話レコメンデータシステムとユーザシミュレータを用いたケーススタディに適用し,ほんの数イテレーションで,会話のブレークダウンに対してシステムをより堅牢にすることができることを示す。
論文 参考訳(メタデータ) (2024-05-23T07:28:26Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - Improving Conversational Recommendation Systems via Counterfactual Data
Simulation [73.4526400381668]
会話推薦システム(CRS)は、自然言語による会話を通じてレコメンデーションサービスを提供することを目的としている。
既存のCRSアプローチは、トレーニングデータの不足により、トレーニングの不十分な問題に悩まされることが多い。
我々は,CRSにおけるデータ不足の問題を緩和するため,CFCRSと呼ばれるCRSに対するCounterFactualデータシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T12:48:56Z) - Prompt-Based Monte-Carlo Tree Search for Goal-Oriented Dialogue Policy
Planning [22.753613264491918]
GDP-Zero は Open-Loop MCTS を用いて,モデルトレーニングなしで目標指向の対話ポリシ計画を実行するアプローチである。
我々は、目標指向タスクPersuasionForGood上でGDP-Zeroを評価し、そのレスポンスがChatGPTよりも59.32%の確率で望ましいことを発見した。
論文 参考訳(メタデータ) (2023-05-23T04:07:03Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - KILDST: Effective Knowledge-Integrated Learning for Dialogue State
Tracking using Gazetteer and Speaker Information [3.342637296393915]
対話状態追跡(DST)は、対話システムにおける中核的な研究であり、多くの注目を集めている。
ユーザ間の対話に対処できる新たな問題を,ユーザ間の対話から情報を抽出し,推奨する対話型AIへのステップとして定義する必要がある。
イベントのスケジューリングに関するユーザ間の対話(DST-S)からの新しいタスクDSTを導入する。
DST-Sタスクは、ユーザ間の対話における対話を理解し、追跡し、誰がスケジュールを提案し、誰が提案されたスケジュールに同意したかを理解する必要があるため、はるかに難しい。
論文 参考訳(メタデータ) (2023-01-18T07:11:56Z) - Follow Me: Conversation Planning for Target-driven Recommendation
Dialogue Systems [9.99763097964222]
推薦対話システムは,ユーザとソーシャル・ボンドを構築し,高品質なレコメンデーションを提供することを目的としている。
本稿では,目標駆動型レコメンデーション対話システムという,将来的なパラダイムを推し進める。
ユーザが会話を通じて、指定されたターゲットを徐々に受け入れるように、自然に誘導する方法に重点を置いています。
論文 参考訳(メタデータ) (2022-08-06T13:23:42Z) - CR-Walker: Tree-Structured Graph Reasoning and Dialog Acts for
Conversational Recommendation [62.13413129518165]
CR-Walkerは知識グラフ上で木構造推論を行うモデルである。
インフォメーションダイアログが生成され、言語生成をガイドする。
自動的および人的評価は、CR-Walkerがより正確なレコメンデーションに到達できることを示している。
論文 参考訳(メタデータ) (2020-10-20T14:53:22Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。