論文の概要: Enhancing User-Oriented Proactivity in Open-Domain Dialogues with Critic Guidance
- arxiv url: http://arxiv.org/abs/2505.12334v1
- Date: Sun, 18 May 2025 09:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.170847
- Title: Enhancing User-Oriented Proactivity in Open-Domain Dialogues with Critic Guidance
- Title(参考訳): 批判的指導を伴うオープンドメイン対話におけるユーザ指向の積極性向上
- Authors: Yufeng Wang, Jinwu Hu, Ziteng Huang, Kunyang Lin, Zitian Zhang, Peihao Chen, Yu Hu, Qianyue Wang, Zhuliang Yu, Bin Sun, Xiaofen Xing, Qingfang Zheng, Mingkui Tan,
- Abstract要約: オープンドメイン対話システムは自然な会話を生み出すことを目的としている。
既存の大きな言語モデル(LLM)は、ユーザのチャットの好みを積極的に理解できない。
ユーザ指向のプロアクティブ性を高めるために,ユーザ指向プロアクティブ(UPC)を提案する。
- 参考スコア(独自算出の注目度): 35.15965694815852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain dialogue systems aim to generate natural and engaging conversations, providing significant practical value in real applications such as social robotics and personal assistants. The advent of large language models (LLMs) has greatly advanced this field by improving context understanding and conversational fluency. However, existing LLM-based dialogue systems often fall short in proactively understanding the user's chatting preferences and guiding conversations toward user-centered topics. This lack of user-oriented proactivity can lead users to feel unappreciated, reducing their satisfaction and willingness to continue the conversation in human-computer interactions. To address this issue, we propose a User-oriented Proactive Chatbot (UPC) to enhance the user-oriented proactivity. Specifically, we first construct a critic to evaluate this proactivity inspired by the LLM-as-a-judge strategy. Given the scarcity of high-quality training data, we then employ the critic to guide dialogues between the chatbot and user agents, generating a corpus with enhanced user-oriented proactivity. To ensure the diversity of the user backgrounds, we introduce the ISCO-800, a diverse user background dataset for constructing user agents. Moreover, considering the communication difficulty varies among users, we propose an iterative curriculum learning method that trains the chatbot from easy-to-communicate users to more challenging ones, thereby gradually enhancing its performance. Experiments demonstrate that our proposed training method is applicable to different LLMs, improving user-oriented proactivity and attractiveness in open-domain dialogues.
- Abstract(参考訳): オープンドメイン対話システムは、自然な会話を生み出すことを目的としており、社会ロボティクスやパーソナルアシスタントといった現実の応用において重要な実践的価値を提供する。
大規模言語モデル(LLM)の出現は、文脈理解と会話の流布を改善することでこの分野を大いに進歩させてきた。
しかし、既存のLLMベースの対話システムは、ユーザのチャットの好みを積極的に理解し、ユーザ中心のトピックに向けて会話を導くのに不足することが多い。
このユーザ指向の積極的活動の欠如は、ユーザを不満足にさせ、人間とコンピュータのインタラクションにおける会話の継続に対する満足感と意欲を低下させる。
この問題に対処するため,ユーザ指向のProactive Chatbot (UPC) を提案する。
具体的には、まず、LCM-as-a-judge戦略に触発されたこの積極性を評価するために、批評家を構築します。
高品質なトレーニングデータの不足を踏まえて,チャットボットとユーザエージェント間の対話をガイドする上で,ユーザ指向のアクティビティが向上したコーパスを生成する。
ユーザバックグラウンドの多様性を確保するため,ユーザエージェントを構築するための多様なユーザバックグラウンドデータセットであるISCO-800を紹介した。
さらに,コミュニケーションの難しさがユーザによって異なることを考慮し,チャットボットをコミュニケーションの容易なユーザからより困難なユーザへと訓練する反復的なカリキュラム学習手法を提案し,その性能を徐々に向上させる。
実験により,提案手法は異なるLLMに適用可能であることを示し,オープンドメイン対話におけるユーザ指向の積極性と魅力を向上させる。
関連論文リスト
- Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward [11.495697919066341]
ポリシーエージェントは、ユーザの好み、性格、属性に合った振る舞いをパーソナライズできなければならない。
Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。
マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを付加することを提案する。
論文 参考訳(メタデータ) (2025-04-04T06:35:02Z) - Conversational User-AI Intervention: A Study on Prompt Rewriting for Improved LLM Response Generation [16.8514748768591]
本稿では,ユーザクエリが情報要求の表現に欠ける側面と,LLMを用いてサブ最適ユーザプロンプトを書き換える可能性について検討する。
本研究は, ユーザの本来の意図を保ちながら, 会話システムからより優れた応答を導き出すことができることを示す。
論文 参考訳(メタデータ) (2025-03-21T02:01:02Z) - UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-26T14:34:00Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。
本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文 参考訳(メタデータ) (2024-08-27T13:50:37Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy [83.61404191470126]
インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの要因からなる学習目標重みを通じてトレードオフを学習する。
実験の結果,I-Proは,有効性と解釈性において,ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-04-07T14:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。