論文の概要: PolySLGen: Online Multimodal Speaking-Listening Reaction Generation in Polyadic Interaction
- arxiv url: http://arxiv.org/abs/2604.08125v2
- Date: Fri, 10 Apr 2026 10:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 13:51:27.856874
- Title: PolySLGen: Online Multimodal Speaking-Listening Reaction Generation in Polyadic Interaction
- Title(参考訳): PolySLGen: ポリアディック相互作用におけるオンラインマルチモーダル音声リスニング反応生成
- Authors: Zhi-Yi Lin, Thomas Markhorst, Jouh Yeong Chew, Xucong Zhang,
- Abstract要約: PolySLGenは、Polyadic Multimodal Talk and Listening reaction Generationのためのオンラインフレームワークである。
これは、発話、身体の動き、発話状態スコアを含む、対象者に対する将来の発話または聴取反応を生成する。
実験により、PolySLGenは文脈的に適切で時間的にコヒーレントなマルチモーダル反応を生成することが示された。
- 参考スコア(独自算出の注目度): 2.8381726750892557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-like multimodal reaction generation is essential for natural group interactions between humans and embodied AI. However, existing approaches are limited to single-modality or speaking-only responses in dyadic interactions, making them unsuitable for realistic social scenarios. Many also overlook nonverbal cues and complex dynamics of polyadic interactions, both critical for engagement and conversational coherence. In this work, we present PolySLGen, an online framework for Polyadic multimodal Speaking and Listening reaction Generation. Given past conversation and motion from all participants, PolySLGen generates a future speaking or listening reaction for a target participant, including speech, body motion, and speaking state score. To model group interactions effectively, we propose a pose fusion module and a social cue encoder that jointly aggregate motion and social signals from the group. Extensive experiments, along with quantitative and qualitative evaluations, show that PolySLGen produces contextually appropriate and temporally coherent multi-modal reactions, outperforming several adapted and state-of-the-art baselines in motion quality, motion-speech alignment, speaking state prediction, and human-perceived realism.
- Abstract(参考訳): 人間のようなマルチモーダル反応生成は、人間と体現されたAIとの間の自然なグループ間相互作用に不可欠である。
しかし、既存のアプローチは、ダイアド相互作用における単一モダリティや発話のみの応答に限られており、現実的な社会的シナリオには適さない。
多くは、非言語的な手がかりや多進的相互作用の複雑なダイナミクスを見落とし、エンゲージメントと会話的コヒーレンスの両方に批判的である。
本稿では,PolySLGenについて紹介する。PolySLGenは多言語多モーダル音声・リスニング反応生成のためのオンラインフレームワークである。
過去の会話と動きを全参加者から与えると、PolySLGenは、発話、身体の動き、発話状態スコアを含む、対象参加者の将来の発話または聴取反応を生成する。
グループ間相互作用を効果的にモデル化するために,グループからの動作と社会的信号を協調的に集約するポーズ融合モジュールとソーシャルキューエンコーダを提案する。
広汎な実験は、量的および質的な評価とともに、PolySLGenが文脈的に適切で時間的コヒーレントなマルチモーダル反応を生成し、動きの質、音声のアライメント、話し状態の予測、人間の知覚的リアリズムにおいて、適応的で最先端のベースラインよりも優れていたことを示す。
関連論文リスト
- ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data [38.85809416362408]
ReMoGenはリアルタイムインタラクションと反応生成のためのモジュラー学習フレームワークである。
これは、他の動作、シーン幾何学、オプションのハイレベルなセマンティック入力を含む動的マルチソースキューから、エゴの将来の動きを生成する。
ReMoGenは、様々な相互作用シナリオを効果的に一般化しながら、高品質でコヒーレントで応答性のある反応を生成する。
論文 参考訳(メタデータ) (2026-04-01T16:12:23Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions [62.19092662469285]
Online Multimodal Conversational Response Generation (OMCRG) は、オンラインの音声と非言語からのフィードバックを同時生成する新しいタスクである。
我々は,OmniResponseを提案する。OmniResponseはマルチモーダル大言語モデル(MLLM)であり,正確なマルチモーダルリスナー応答を自動回帰的に生成する。
ResponseNetは、696の詳細なダイアディックインタラクションのデータセットで、同期化された分割画面ビデオ、マルチチャンネルオーディオ、トランスクリプト、注釈付き顔行動が特徴です。
論文 参考訳(メタデータ) (2025-05-27T20:12:46Z) - HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation [42.30003982604611]
共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと歩みを高める重要な非言語的手がかりである。
ジェスチャー動作, 音声リズム, テキストセマンティクスのヘテロジニアスな絡み合いを捕捉し, 共同音声ジェスチャ生成のためのHOPという新しい手法を提案する。
HOPは、より自然で表現力のある共同音声ジェスチャ生成を提供する最先端技術を実現している。
論文 参考訳(メタデータ) (2025-03-03T04:47:39Z) - It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。
我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文 参考訳(メタデータ) (2024-12-03T12:31:44Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。