論文の概要: Resonant Minds: Closed-Loop Social Avatars with Theory of Mind
- arxiv url: http://arxiv.org/abs/2606.05896v1
- Date: Thu, 04 Jun 2026 09:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.67525
- Title: Resonant Minds: Closed-Loop Social Avatars with Theory of Mind
- Title(参考訳): 共鳴心:心の理論を持つ閉ループ社会アバター
- Authors: Jianxu Shangguan, Jing Xu, Hang Ye, Xiaoxuan Ma, Yizhou Wang, Wentao Zhu,
- Abstract要約: 本稿では,認識,社会的推論,表現を連続的な相互作用サイクルに統合した閉ループ二重エージェントフレームワークを提案する。
知覚モジュールは、パートナーのマルチモーダルな振る舞いをビデオから分析し、社会的推論モジュールは、心の理論を通して隠れた精神状態を予測する。
その後、表情モジュールは、リスナーの反応行動とともに、話者音声と表現の両方の感情制御可能なデュアルエージェントビデオを生成する。
- 参考スコア(独自算出の注目度): 16.880605576970538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating lifelike digital humans with genuine social intelligence requires unifying cognitive reasoning and multimodal generation within a coherent framework. Current approaches treat these as separate tasks: Large Language Models excel at dialogue but lack embodied expression, while diffusion-based talking head models achieve visual fidelity but ignore social cognition. To bridge this gap, we propose a closed-loop dual-agent framework integrating perception, social reasoning, and expression into a continuous interaction cycle. The perception module analyzes partners' multimodal behaviors from video, while the social reasoning module infers hidden mental states through Theory of Mind and selects responses via an ensemble mechanism. The expression module then generates emotion-controllable dual-agent videos synthesizing both speaker speech and expression alongside listener reactive behaviors, capturing bidirectional dynamics absent in prior work. We construct a hierarchical Persona-Scenario dataset with psychologically grounded personas and private social goals to support evaluation under information asymmetry. Experiments on this dataset demonstrate competitive or superior performance on both dialogue quality and video generation metrics. Notably, our method surpasses even the full-information Script mode on key dialogue quality dimensions, suggesting that explicit mental state inference under uncertainty can elicit more thoughtful dialogue than unrestricted information access.
- Abstract(参考訳): 本物の社会的知性を持つ生活のようなデジタル人間を作るには、コヒーレントな枠組みの中で認知的推論とマルチモーダルな生成を統一する必要がある。
大規模言語モデルは対話において優れるが、具体的表現が欠如する一方、拡散に基づく発話ヘッドモデルは視覚的忠実性を達成するが、社会的認知を無視する。
このギャップを埋めるために、認識、社会的推論、表現を連続的な相互作用サイクルに統合する閉ループ二重エージェントフレームワークを提案する。
知覚モジュールは、パートナーのマルチモーダルな振る舞いをビデオから分析し、社会的推論モジュールは、心の理論を通して隠れた精神状態を推論し、アンサンブル機構を介して応答を選択する。
その後、表情モジュールは、音声と表情の両方を合成する感情制御可能なデュアルエージェントビデオを生成し、リスナーの反応行動と合わせて、先行作業で欠落した双方向のダイナミクスをキャプチャする。
本研究では,情報非対称性に基づく評価を支援するために,心理的根拠のあるペルソナと個人的社会的目標を備えた階層型ペルソナ・セサリオデータセットを構築した。
このデータセットの実験は、対話の品質とビデオ生成の指標の両方において、競争力または優れたパフォーマンスを示す。
特に,本手法は重要な対話品質次元のフルインフォームスクリプトモードを超越し,不確実性条件下での明示的な精神状態推論により,制限のない情報アクセスよりも思考力の高い対話が引き起こされる可能性が示唆された。
関連論文リスト
- Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems [17.381122321801556]
メタ認知の心理学理論に触発されたマルチエージェントフレームワークであるMetaMindを紹介する。
我々のフレームワークは3つの挑戦的なベンチマークで最先端のパフォーマンスを実現し、実世界の社会的シナリオは35.7%改善した。
この研究は、共感的対話や文化的に敏感な相互作用に応用して、人間のような社会知性に向けてAIシステムを前進させる。
論文 参考訳(メタデータ) (2025-05-25T02:32:57Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。