論文の概要: Learning to Simulate Human Dialogue
- arxiv url: http://arxiv.org/abs/2601.04436v1
- Date: Wed, 07 Jan 2026 22:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.945149
- Title: Learning to Simulate Human Dialogue
- Title(参考訳): 人との対話をシミュレートする学習
- Authors: Kanishk Gandhi, Agam Bhatia, Noah D. Goodman,
- Abstract要約: 次回対話予測:会話が与えられたら、その人が生成した次の発話を予測する。
我々は、モデルが応答する前に考えることができるかどうか、学習の報奨方法の2つの側面に沿って学習アプローチを比較する。
実際の人間対話に基礎を置いた分布マッチングの目標をトレーニングする場合,思考は主として有効であることがわかった。
- 参考スコア(独自算出の注目度): 35.88351482220924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To predict what someone will say is to model how they think. We study this through next-turn dialogue prediction: given a conversation, predict the next utterance produced by a person. We compare learning approaches along two dimensions: (1) whether the model is allowed to think before responding, and (2) how learning is rewarded either through an LLM-as-a-judge that scores semantic similarity and information completeness relative to the ground-truth response, or by directly maximizing the log-probability of the true human dialogue. We find that optimizing for judge-based rewards indeed increases judge scores throughout training, however it decreases the likelihood assigned to ground truth human responses and decreases the win rate when human judges choose the most human-like response among a real and synthetic option. This failure is amplified when the model is allowed to think before answering. In contrast, by directly maximizing the log-probability of observed human responses, the model learns to better predict what people actually say, improving on both log-probability and win rate evaluations. Treating chain-of-thought as a latent variable, we derive a lower bound on the log-probability. Optimizing this objective yields the best results on all our evaluations. These results suggest that thinking helps primarily when trained with a distribution-matching objective grounded in real human dialogue, and that scaling this approach to broader conversational data may produce models with a more nuanced understanding of human behavior.
- Abstract(参考訳): 誰かが何を言っているかを予測するには、どのように考えるかをモデル化する。
会話が与えられたら、その人が生成した次の発話を予測する。
本研究は,(1)モデルが応答前に考えることを許されるか否か,(2)実際の人間の対話の対数確率を直接最大化することにより,意味的類似性と情報完全性を評価するLLM-as-a-judgeを通じて学習が報われるか,の2つの側面について学習アプローチを比較した。
判定に基づく報酬の最適化は、実際に訓練を通して判断スコアを増大させるが、人間の真理応答に割り当てられる確率を減少させ、人間の判断がリアルで合成的な選択肢の中で最も人間的な反応を選択すると、勝利率を低下させる。
この失敗は、モデルが答える前に考えることを許されたときに増幅される。
対照的に、観察された人間の反応の対数確率を直接最大化することにより、モデルは人々が実際に何を言っているかをより正確に予測し、対数確率と勝率評価の両方を改善します。
チェーン・オブ・シントを潜在変数として扱い、ログ確率の低い境界を導出する。
この目的を最適化することは、すべての評価において最高の結果をもたらす。
これらの結果は、思考が人間の実際の対話に根ざした分布マッチングの目的を訓練する際には、主に思考が役立つことを示唆し、このアプローチをより広い会話データに拡張することで、人間の振る舞いをより微妙に理解したモデルを生み出す可能性があることを示唆している。
関連論文リスト
- Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文 参考訳(メタデータ) (2022-08-23T02:19:10Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z) - "Wait, I'm Still Talking!" Predicting the Dialogue Interaction Behavior
Using Imagine-Then-Arbitrate Model [24.560203199376478]
実際の人間と人間の会話では、1ターンで長いメッセージではなく、可読性のためのいくつかの短いメッセージが順次送信されることが多い。
本稿では,エージェントが待機するか,直接応答するかを決定するのに役立つ,新しいImagine-then-Arbitrate(ITA)ニューラルダイアログモデルを提案する。
論文 参考訳(メタデータ) (2020-02-22T04:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。