論文の概要: OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
- arxiv url: http://arxiv.org/abs/2505.21724v1
- Date: Tue, 27 May 2025 20:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.268032
- Title: OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
- Title(参考訳): OmniResponse:オンラインマルチモーダル対話応答生成
- Authors: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem,
- Abstract要約: 我々は,オンラインマルチモーダル対話応答生成(OMCRG)を紹介した。
我々は,高品質なマルチモーダルリスナ応答を自動生成するMLLM(Multimodal Large Language Model)であるOmniResponseを提案する。
我々は、同期分割画面ビデオ、マルチチャンネルオーディオ、転写、顔行動アノテーションを含む696の高品質なダイアディックインタラクションからなる新しいデータセットであるResponseNetを提案する。
- 参考スコア(独自算出の注目度): 50.705439960008235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task that aims to online generate synchronized verbal and non-verbal listener feedback, conditioned on the speaker's multimodal input. OMCRG reflects natural dyadic interactions and poses new challenges in achieving synchronization between the generated audio and facial responses of the listener. To address these challenges, we innovatively introduce text as an intermediate modality to bridge the audio and facial responses. We hence propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates high-quality multi-modal listener responses. OmniResponse leverages a pretrained LLM enhanced with two novel components: Chrono-Text, which temporally anchors generated text tokens, and TempoVoice, a controllable online TTS module that produces speech synchronized with facial reactions. To support further OMCRG research, we present ResponseNet, a new dataset comprising 696 high-quality dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and facial behavior annotations. Comprehensive evaluations conducted on ResponseNet demonstrate that OmniResponse significantly outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality.
- Abstract(参考訳): 本稿では, 話者のマルチモーダル入力を条件に, 音声と非言語からのフィードバックをオンラインに生成することを目的とした新しいタスクである, Online Multimodal Conversational Response Generation (OMCRG)を紹介する。
OMCRGは自然なディヤド相互作用を反映し、生成された音声とリスナーの顔の反応を同期させる上で新たな課題を提起する。
これらの課題に対処するために、音声と顔の反応をブリッジする中間モダリティとしてテキストを革新的に導入する。
そこで我々は,高品質なマルチモーダルリスナ応答を自動生成するMLLM(Multimodal Large Language Model)のOmniResponseを提案する。
OmniResponseは、生成されたテキストトークンを一時的にアンカーするChrono-Textと、顔反応に同期した音声を生成する制御可能なオンラインTTSモジュールであるTempoVoiceという、2つの新しいコンポーネントで強化された事前トレーニングされたLLMを活用する。
我々は,OMCRGのさらなる研究を支援するために,同期分割画面ビデオ,マルチチャンネルオーディオ,トランスクリプト,顔行動アノテーションを含む696の高品質なダイアディックインタラクションからなる新しいデータセットであるResponseNetを提案する。
ResponseNet 上で行った総合評価では,OmniResponse はセマンティック音声内容,音声-視覚同期,生成品質において,ベースラインモデルを大幅に上回っている。
関連論文リスト
- Beyond Words: Multimodal LLM Knows When to Speak [25.374878759869333]
我々は、視覚、音声、テキスト間の微妙なマルチモーダル信号に依存する、短時間で反応する発話に重点を置いて、応答型のリアルタイム予測に重点を置いている。
実世界の会話ビデオから構築された新しいマルチモーダルデータセットを導入し、時間的に整列された視覚、聴覚、テキストストリームを含む。
MM-When2Speakは,視覚的,聴覚的,テキスト的コンテキストを適応的に統合し,応答がいつ発生すべきか,どの応答が適切かを予測するマルチモーダルLCMベースのモデルである。
論文 参考訳(メタデータ) (2025-05-20T17:42:34Z) - OmniTalker: Real-Time Text-Driven Talking Head Generation with In-Context Audio-Visual Style Replication [19.688375369516923]
我々は,リアルタイムゼロショットシナリオにおけるテキストと参照ビデオから,同期音声と音声ヘッドビデオを同時に生成するエンドツーエンド統合フレームワークを提案する。
提案手法は,特にスタイル保存や音声-ビデオ同期に優れた生成品質の既存手法を超越した手法である。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - HeterMPC: A Heterogeneous Graph Neural Network for Response Generation
in Multi-Party Conversations [76.64792382097724]
We present HeterMPC, a graph-based neural network for response generation in multi-party conversation (MPCs)。
HeterMPCは、グラフ内の2種類のノードと同時に、発話とインターロケータのセマンティクスをモデル化する。
マルチホップ更新により、HeterMPCは応答生成のための会話の構造的知識を適切に活用することができる。
論文 参考訳(メタデータ) (2022-03-16T09:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。