論文の概要: V-VAE: A Variational Auto Encoding Framework Towards Fine-Grained Control over Human-Like Chat
- arxiv url: http://arxiv.org/abs/2506.01524v1
- Date: Mon, 02 Jun 2025 10:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.196142
- Title: V-VAE: A Variational Auto Encoding Framework Towards Fine-Grained Control over Human-Like Chat
- Title(参考訳): V-VAE:人型チャット上での微粒化制御を目的とした変分自動符号化フレームワーク
- Authors: Qi Lin, Weikai Xu, Lisi Chen, Bin Dai,
- Abstract要約: ロールプレイとペルソナベースのチャットアプローチは、静的な役割記述、粗い信号空間、低品質の合成データに大きく依存している。
人間のようなチャットは、感情的なトーン、状況認識、進化するパーソナリティなどの微妙な潜伏特性をモデル化する必要がある。
これらの制約に対処するため、変分自動符号化モジュールと細粒度で解釈可能な潜伏変数を含むV-VAEフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.038481783630864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continued proliferation of Large Language Model (LLM) based chatbots, there is a growing demand for generating responses that are not only linguistically fluent but also consistently aligned with persona-specific traits in conversations. However, existing role-play and persona-based chat approaches rely heavily on static role descriptions, coarse-grained signal space, and low-quality synthetic data, which fail to capture dynamic fine-grained details in human-like chat. Human-like chat requires modeling subtle latent traits, such as emotional tone, situational awareness, and evolving personality, which are difficult to predefine and cannot be easily learned from synthetic or distillation-based data. To address these limitations, we propose a Verbal Variational Auto-Encoding (V-VAE) framework, containing a variational auto-encoding module and fine-grained control space which dynamically adapts dialogue behaviour based on fine-grained, interpretable latent variables across talking style, interaction patterns, and personal attributes. We also construct a high-quality dataset, HumanChatData, and benchmark HumanChatBench to address the scarcity of high-quality data in the human-like domain. Experiments show that LLMs based on V-VAE consistently outperform standard baselines on HumanChatBench and DialogBench, which further demonstrates the effectiveness of V-VAE and HumanChatData.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのチャットボットの継続的な普及に伴い、言語的に流動的なだけでなく、会話におけるペルソナ固有の特徴と一貫して一致した応答を生成することへの需要が高まっている。
しかし、既存のロールプレイとペルソナベースのチャットアプローチは、静的な役割記述、粗い信号空間、低品質な合成データに大きく依存している。
人間のようなチャットは、感情的なトーン、状況認識、進化するパーソナリティなどの微妙な潜伏特性をモデル化する必要がある。
これらの制約に対処するため,変分自動符号化モジュールと細粒度制御空間を含むV-VAE(Verbal Variational Auto-Encoding)フレームワークを提案する。
また、高品質なデータセットであるHumanChatDataを構築し、HumanChatBenchベンチマークを行い、人間のようなドメインにおける高品質なデータの不足に対処する。
V-VAE に基づく LLM は、HumanChatBench と DialogBench の標準ベースラインを一貫して上回り、V-VAE と HumanChatData の有効性をさらに示している。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - VAGUE: Visual Contexts Clarify Ambiguous Expressions [15.140825578254324]
目的のための視覚的コンテキストを統合するマルチモーダルAIシステムの能力を評価するベンチマークであるVAGUEを紹介する。
VAGUEは1.6Kの曖昧な文体表現で構成され、それぞれに画像と複数選択の解釈が組み合わされている。
我々の実験によると、既存のマルチモーダルAIモデルは話者の真の意図を推測するのに苦労している。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - PersonalityChat: Conversation Distillation for Personalized Dialog
Modeling with Facts and Traits [5.447308344436046]
PersonalityChatは、人気のPersonaChatデータセットに基づいた合成会話データセットである。
生成対話モデルの特質に基づくパーソナライズには,性格特性ラベルが有効であることを示す。
論文 参考訳(メタデータ) (2024-01-14T20:35:33Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Faithful Persona-based Conversational Dataset Generation with Large
Language Models [10.506653172302222]
高品質な会話データセットは、ユーザと通信可能なAIモデルを開発する上で不可欠である。
我々は,会話の質を向上しつつ,初期データセットを拡張するためのGenerator-Criticアーキテクチャフレームワークを提案する。
我々はPersona-Chatからシードされた20万の会話からなるSynthetic-Persona-Chatをリリースする。
論文 参考訳(メタデータ) (2023-12-15T18:23:50Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - PlatoLM: Teaching LLMs in Multi-Round Dialogue via a User Simulator [39.40718009289621]
本研究では,人間の行動をより良くシミュレートするパラダイムを提案し,マルチターン会話に人間的な質問を組み込むことのメリットを探求する。
具体的には、真の人間と機械の会話から抽出した人間の質問を学習目標とし、ソクラティックと呼ばれる新しいユーザシミュレータを提供する。
MT-Bench における LLaMA ベースの 7B モデル間でのSoTA 性能について検討した。
論文 参考訳(メタデータ) (2023-08-21T06:51:56Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。