論文の概要: Human vs. Agent in Task-Oriented Conversations
- arxiv url: http://arxiv.org/abs/2509.17619v1
- Date: Mon, 22 Sep 2025 11:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:28:12.89677
- Title: Human vs. Agent in Task-Oriented Conversations
- Title(参考訳): タスク指向会話における人間対エージェント
- Authors: Zhefan Wang, Ning Geng, Zhiqiang Guo, Weizhi Ma, Min Zhang,
- Abstract要約: 本研究は,大規模言語モデル(LLM)を模擬したユーザとタスク指向の対話における人間ユーザとの体系的比較を行った最初の事例である。
本分析により,問題解決手法における2つのユーザタイプ間の行動的差異が明らかとなった。
- 参考スコア(独自算出の注目度): 22.743152820695588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented conversational systems are essential for efficiently addressing diverse user needs, yet their development requires substantial amounts of high-quality conversational data that is challenging and costly to obtain. While large language models (LLMs) have demonstrated potential in generating synthetic conversations, the extent to which these agent-generated interactions can effectively substitute real human conversations remains unclear. This work presents the first systematic comparison between LLM-simulated users and human users in personalized task-oriented conversations. We propose a comprehensive analytical framework encompassing three key aspects (conversation strategy, interaction style, and conversation evaluation) and ten distinct dimensions for evaluating user behaviors, and collect parallel conversational datasets from both human users and LLM agent users across four representative scenarios under identical conditions. Our analysis reveals significant behavioral differences between the two user types in problem-solving approaches, question broadness, user engagement, context dependency, feedback polarity and promise, language style, and hallucination awareness. We found consistency in the agent users and human users across the depth-first or breadth-first dimensions, as well as the usefulness dimensions. These findings provide critical insights for advancing LLM-based user simulation. Our multi-dimensional taxonomy constructed a generalizable framework for analyzing user behavior patterns, offering insights from LLM agent users and human users. By this work, we provide perspectives on rethinking how to use user simulation in conversational systems in the future.
- Abstract(参考訳): タスク指向の会話システムは、多様なユーザニーズに効率的に対処するためには不可欠であるが、その開発にはかなりの量の高品質な会話データが必要である。
大規模言語モデル(LLM)は、合成会話を生成する可能性を証明しているが、エージェントが生成した相互作用が実際の人間の会話を効果的に置き換える程度は、まだ不明である。
本研究は,パーソナライズされたタスク指向会話におけるLLMシミュレーションユーザと人間ユーザとの最初の体系的比較を示す。
本稿では,3つの重要な側面(対話戦略,対話スタイル,会話評価)と,ユーザの行動を評価するための10の異なる次元を含む包括的な分析フレームワークを提案する。
分析の結果,問題解決アプローチ,質問範囲,ユーザエンゲージメント,コンテキスト依存性,フィードバックの極性と約束,言語スタイル,幻覚認知における2つのユーザタイプ間の行動的差異が明らかとなった。
エージェントユーザと人間ユーザの間では,奥行き第一次元,幅第一次元,有用性次元の整合性が確認された。
これらの知見は,LLMに基づくユーザシミュレーションの進展に重要な洞察を与える。
当社の多次元分類学は, LLMエージェントユーザと人間ユーザからの洞察を提供するとともに, ユーザの行動パターンを解析するための一般化可能なフレームワークを構築した。
本研究は,今後の対話システムにおけるユーザシミュレーションの活用方法を再考する視点を提供する。
関連論文リスト
- A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。
ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。
実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2025-04-09T13:21:17Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Simulating User Diversity in Task-Oriented Dialogue Systems using Large Language Models [11.708400514900053]
我々は、ユーザプロファイルの不均一なベースを生成するために、2つのプロプライエタリなLarge Language Model(LLM)を採用している。
これらのシミュレーションに固有の多様性,一貫性,潜在的なバイアスを評価するために,LLMが生成したユーザプロファイルを詳細に解析する。
GPT-o1は、多くのユーザ属性に対してより異質なユーザ分布を生成するのに対し、GPT-4oはより歪んだユーザ属性を生成する。
論文 参考訳(メタデータ) (2025-02-18T12:20:16Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。