論文の概要: Beyond Words: Multimodal LLM Knows When to Speak
- arxiv url: http://arxiv.org/abs/2505.14654v1
- Date: Tue, 20 May 2025 17:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.652077
- Title: Beyond Words: Multimodal LLM Knows When to Speak
- Title(参考訳): 言葉を超えて:マルチモーダルなLLMはいつ話すか知っている
- Authors: Zikai Liao, Yi Ouyang, Yi-Lun Lee, Chen-Ping Yu, Yi-Hsuan Tsai, Zhaozheng Yin,
- Abstract要約: 我々は、視覚、音声、テキスト間の微妙なマルチモーダル信号に依存する、短時間で反応する発話に重点を置いて、応答型のリアルタイム予測に重点を置いている。
実世界の会話ビデオから構築された新しいマルチモーダルデータセットを導入し、時間的に整列された視覚、聴覚、テキストストリームを含む。
MM-When2Speakは,視覚的,聴覚的,テキスト的コンテキストを適応的に統合し,応答がいつ発生すべきか,どの応答が適切かを予測するマルチモーダルLCMベースのモデルである。
- 参考スコア(独自算出の注目度): 25.374878759869333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language model (LLM)-based chatbots have demonstrated strong capabilities in generating coherent and contextually relevant responses, they often struggle with understanding when to speak, particularly in delivering brief, timely reactions during ongoing conversations. This limitation arises largely from their reliance on text input, lacking the rich contextual cues in real-world human dialogue. In this work, we focus on real-time prediction of response types, with an emphasis on short, reactive utterances that depend on subtle, multimodal signals across vision, audio, and text. To support this, we introduce a new multimodal dataset constructed from real-world conversational videos, containing temporally aligned visual, auditory, and textual streams. This dataset enables fine-grained modeling of response timing in dyadic interactions. Building on this dataset, we propose MM-When2Speak, a multimodal LLM-based model that adaptively integrates visual, auditory, and textual context to predict when a response should occur, and what type of response is appropriate. Experiments show that MM-When2Speak significantly outperforms state-of-the-art unimodal and LLM-based baselines, achieving up to a 4x improvement in response timing accuracy over leading commercial LLMs. These results underscore the importance of multimodal inputs for producing timely, natural, and engaging conversational AI.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのチャットボットは、一貫性とコンテキストに関連のある応答を生成する上で強力な能力を示してきたが、会話中の短時間でタイムリーな反応を提供する場合、会話のタイミングを理解するのに苦労することが多い。
この制限は主にテキスト入力への依存から生じ、現実世界の人間の対話においてコンテキストの豊富な手がかりが欠如している。
本研究では,視覚,音声,テキスト間の微妙なマルチモーダル信号に依存する短時間で反応可能な発話に着目し,応答型をリアルタイムに予測することに焦点を当てる。
これをサポートするために,実世界の会話ビデオから構築された,時間的に整列した視覚的,聴覚的,テキスト的ストリームを含む新しいマルチモーダルデータセットを提案する。
このデータセットは、ダイアド相互作用における応答タイミングのきめ細かいモデリングを可能にする。
このデータセットに基づいてMM-When2Speakを提案する。MM-When2Speakは視覚的,聴覚的,テキスト的コンテキストを適応的に統合し,応答がいつ発生すべきか,どの応答が適切かを予測するマルチモーダルLLMベースのモデルである。
実験の結果,MM-When2Speakは最先端の商用LCMよりも応答タイミングの精度が最大4倍向上し,最先端のユニモーダルとLCMベースのベースラインを著しく上回ることがわかった。
これらの結果は、タイムリーで自然な、対話型AIを生成するためのマルチモーダル入力の重要性を浮き彫りにしている。
関連論文リスト
- MTPChat: A Multimodal Time-Aware Persona Dataset for Conversational Agents [23.98067169669452]
MTPChatは、対話とペルソナメモリに言語的、視覚的、時間的要素を統合する、タイムアウェアなペルソナ対話データセットである。
時間的次反応予測(TNRP)と時間的接地記憶予測(TGMP)の2つのタスクを提案する。
本稿では,マルチモーダルストリームを効果的に統合し,時間依存を捕捉する適応時間モジュールを特徴とする革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-09T13:00:53Z) - Can MLLMs Generalize to Multi-Party dialog? Exploring Multilingual Response Generation in Complex Scenarios [8.131774353504472]
マルチパーティポッドキャスト対話をベースとした,高品質な並列多言語データセットであるXMPを紹介する。
データセットのほとんどのサンプルには3つ以上の参加者が参加し、幅広いトピックについて議論している。
R1:MLLMはマルチパーティ設定への一般化に失敗し、XMPのR2ファインチューニングはわずかに改善され、70Bモデルは8Bよりも1%の絶対的なゲインを達成した。
論文 参考訳(メタデータ) (2025-01-20T04:33:03Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents [12.555910887280199]
フル同期音声対話モデルのための同期LLMを提案する。
実世界の音声対話データをわずか2k時間で有意義で自然な対話を生成するモデルを訓練する。
異なるデータセット上で訓練された2つのエージェント間の相互作用をシミュレートすることにより、モデルがフル同期対話に参加する能力を示す。
論文 参考訳(メタデータ) (2024-09-23T23:01:31Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。