論文の概要: OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
- arxiv url: http://arxiv.org/abs/2505.21724v2
- Date: Tue, 28 Oct 2025 14:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.058491
- Title: OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
- Title(参考訳): OmniResponse:オンラインマルチモーダル対話応答生成
- Authors: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem,
- Abstract要約: Online Multimodal Conversational Response Generation (OMCRG) は、オンラインの音声と非言語からのフィードバックを同時生成する新しいタスクである。
我々は,OmniResponseを提案する。OmniResponseはマルチモーダル大言語モデル(MLLM)であり,正確なマルチモーダルリスナー応答を自動回帰的に生成する。
ResponseNetは、696の詳細なダイアディックインタラクションのデータセットで、同期化された分割画面ビデオ、マルチチャンネルオーディオ、トランスクリプト、注釈付き顔行動が特徴です。
- 参考スコア(独自算出の注目度): 62.19092662469285
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task designed to produce synchronized verbal and non-verbal listener feedback online, based on the speaker's multimodal inputs. OMCRG captures natural dyadic interactions and introduces new challenges in aligning generated audio with listeners' facial responses. To tackle these challenges, we incorporate text as an intermediate modality to connect audio and facial responses. We propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates accurate multimodal listener responses. OmniResponse leverages a pretrained LLM enhanced with two core components: Chrono-Text Markup, which precisely timestamps generated text tokens, and TempoVoice, a controllable online text-to-speech (TTS) module that outputs speech synchronized with facial responses. To advance OMCRG research, we offer ResponseNet, a dataset of 696 detailed dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and annotated facial behaviors. Comprehensive evaluations on ResponseNet demonstrate that OmniResponse outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality. Our dataset, code, and models are publicly available.
- Abstract(参考訳): 本稿では, 話者のマルチモーダル入力に基づいて, 対話型・非言語型リスナーフィードバックをオンラインで生成する新しいタスクである, オンラインマルチモーダル対話応答生成(OMCRG)を提案する。
OMCRGは自然なダイアドインタラクションをキャプチャし、生成した音声とリスナーの顔の反応を整合させるという新たな課題を導入する。
これらの課題に対処するために、テキストを中間モードとして組み込んで、音声と顔の反応を接続する。
我々は,OmniResponseを提案する。OmniResponseはマルチモーダル大言語モデル(MLLM)であり,正確なマルチモーダルリスナー応答を自動回帰的に生成する。
OmniResponseは、生成されたテキストトークンを正確にタイムスタンプするChrono-Text Markupと、顔の反応に同期した音声を出力する制御可能なオンラインテキスト音声(TTS)モジュールであるTempoVoiceという、2つのコアコンポーネントで強化されたトレーニング済みのLLMを活用する。
OMCRG研究を前進させるために、ResponseNetは、同期分割画面ビデオ、マルチチャンネルオーディオ、書き起こし、注釈付き顔行動を含む696の詳細なダイアディックインタラクションのデータセットを提供する。
ResponseNetの総合評価では、OmniResponseは、セマンティック音声コンテンツ、音声-視覚同期、生成品質の点でベースラインモデルを上回っている。
私たちのデータセット、コード、モデルは公開されています。
関連論文リスト
- CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [79.0241611035794]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - Beyond Words: Multimodal LLM Knows When to Speak [25.374878759869333]
我々は、視覚、音声、テキスト間の微妙なマルチモーダル信号に依存する、短時間で反応する発話に重点を置いて、応答型のリアルタイム予測に重点を置いている。
実世界の会話ビデオから構築された新しいマルチモーダルデータセットを導入し、時間的に整列された視覚、聴覚、テキストストリームを含む。
MM-When2Speakは,視覚的,聴覚的,テキスト的コンテキストを適応的に統合し,応答がいつ発生すべきか,どの応答が適切かを予測するマルチモーダルLCMベースのモデルである。
論文 参考訳(メタデータ) (2025-05-20T17:42:34Z) - OmniTalker: Real-Time Text-Driven Talking Head Generation with In-Context Audio-Visual Style Replication [19.688375369516923]
我々は,リアルタイムゼロショットシナリオにおけるテキストと参照ビデオから,同期音声と音声ヘッドビデオを同時に生成するエンドツーエンド統合フレームワークを提案する。
提案手法は,特にスタイル保存や音声-ビデオ同期に優れた生成品質の既存手法を超越した手法である。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation [17.56310064245171]
SALMON-Omni(サルモン・オムニ)は、発話中に発声した音声を同時に聴くことができる音声理解・生成モデルである。
SALMON-Omniは、ターンテイキング、バージイン、エコーキャンセルのシナリオの管理に長けており、完全な対話型AIシステムの堅牢なプロトタイプとしての可能性を確立している。
論文 参考訳(メタデータ) (2024-11-27T08:38:57Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems [7.326036800127981]
テキストと音声の両方を処理するマルチモーダル言語モデルは、音声対話システムに応用できる可能性がある。
音声応答を生成するには、事前に書かれた応答を生成する必要があり、音声シーケンスはテキストシーケンスよりもかなり長い。
本研究では,テキストと音声の並列生成を支援するために,言語モデルの入力シーケンスと出力シーケンスを拡張することで,これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-18T09:23:54Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - HeterMPC: A Heterogeneous Graph Neural Network for Response Generation
in Multi-Party Conversations [76.64792382097724]
We present HeterMPC, a graph-based neural network for response generation in multi-party conversation (MPCs)。
HeterMPCは、グラフ内の2種類のノードと同時に、発話とインターロケータのセマンティクスをモデル化する。
マルチホップ更新により、HeterMPCは応答生成のための会話の構造的知識を適切に活用することができる。
論文 参考訳(メタデータ) (2022-03-16T09:50:32Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。