論文の概要: Flipping the Dialogue: Training and Evaluating User Language Models
- arxiv url: http://arxiv.org/abs/2510.06552v1
- Date: Wed, 08 Oct 2025 01:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.250193
- Title: Flipping the Dialogue: Training and Evaluating User Language Models
- Title(参考訳): Flipping the Dialogue: ユーザ言語モデルのトレーニングと評価
- Authors: Tarek Naous, Philippe Laban, Wei Xu, Jennifer Neville,
- Abstract要約: 汎用ユーザ言語モデル(ユーザLM)を紹介する。
ユーザLMは、マルチターン会話で人間のユーザをシミュレートする、ポストトレーニング後のモデルである。
ユーザLMが人間の行動とどのように一致しているかを示し、既存のシミュレーション手法よりも優れたシミュレーションロバスト性を実現する。
- 参考スコア(独自算出の注目度): 31.119620506835677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversations with LMs involve two participants: a human user leading the conversation, and an LM assistant responding to the user's request. To satisfy this specific role, LMs are post-trained to be helpful assistants -- optimized to produce exhaustive and well-structured responses, free of ambiguity and grammar errors. User utterances, on the other hand, are rarely perfected, with each user phrasing requests in unique ways, sometimes putting in partial effort at each turn and refining on the fly. To evaluate LM performance in realistic settings, prior work simulated users in multi-turn conversations, often prompting an LLM originally trained to be a helpful assistant to act as a user. However, we show that assistant LMs make for poor user simulators, with the surprising finding that better assistants yield worse simulators. Instead, we introduce purpose-built User Language Models (User LMs) - models post-trained to simulate human users in multi-turn conversations. Through various evaluations, we show how User LMs align better with human behavior and achieve better simulation robustness than existing simulation methods. When leveraging User LMs to simulate coding and math conversations, the performance of a strong assistant (GPT-4o) drops from 74.6% to 57.4%, confirming that more realistic simulation environments lead to assistant struggles as they fail to cope with the nuances of users in multi-turn setups.
- Abstract(参考訳): LMとの会話には、会話をリードする人間のユーザと、ユーザの要求に応答するLMアシスタントの2人の参加者が含まれる。
この特定の役割を満たすため、LMは、あいまいさや文法エラーのない、徹底的で構造化された応答を生成するように最適化された、有用なアシスタントとして後から訓練される。
一方、ユーザ発話は、各ユーザが独自の方法でリクエストを表現し、各ターンに部分的に取り組み、フライで精製するなど、ほぼ完全には行われません。
現実的な環境でのLM性能を評価するために、先行作業はマルチターン会話でユーザをシミュレートし、当初、LLMはユーザとして振る舞うのに役立つアシスタントとして訓練された。
しかし, アシスタントLMは, ユーザシミュレータが貧弱であることを示すとともに, より良いアシスタントがシミュレータを悪化させるという驚くべき発見がある。
代わりに、目的構築されたユーザ言語モデル (User LMs) - マルチターン会話において、人間のユーザをシミュレートするための後トレーニングモデルを導入する。
様々な評価を通じて,ユーザLMが人間の行動とどのように整合し,シミュレーションの堅牢性を既存のシミュレーション手法より向上させるかを示す。
ユーザ LM を利用してコーディングと数学の会話をシミュレートする際、強力なアシスタント(GPT-4o)の性能は74.6%から57.4%に低下し、より現実的なシミュレーション環境はマルチターン設定におけるユーザのニュアンスに対処できないため、アシスタントの苦労につながることを確認した。
関連論文リスト
- SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants? [61.07963107032645]
大規模言語モデル(LLM)は、対話型アプリケーションでますます使われている。
人間の評価は、マルチターン会話におけるパフォーマンスを評価するためのゴールドスタンダードのままである。
我々は、909の注釈付き人間とLLMの会話を2つの対話タスクで行うベンチマークであるSimulatorArenaを紹介した。
論文 参考訳(メタデータ) (2025-10-06T23:17:44Z) - Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。
USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-26T09:26:54Z) - DuetSim: Building User Simulator with Dual Large Language Models for Task-Oriented Dialogues [7.765092134290888]
本稿では,大規模言語モデルを活用することで,タスク指向対話の複雑な要求に対処する新しいフレームワークであるDuetSimを紹介する。
DuetSim は2つの LLM をタンデムで採用することで従来の手法とは異なっている。
提案手法の有効性を,MultiWOZデータセットを用いた広範囲な実験により検証し,応答品質と正しさの向上を強調した。
論文 参考訳(メタデータ) (2024-05-16T06:24:31Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。