論文の概要: Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions
- arxiv url: http://arxiv.org/abs/2506.00421v1
- Date: Sat, 31 May 2025 06:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.984159
- Title: Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions
- Title(参考訳): 目と耳によるチャットボットの実現:動的インタラクションのための没入型マルチモーダル会話システム
- Authors: Jihyoung Jang, Minwook Bae, Minji Kim, Dilek Hakkani-Tur, Hyounghun Kim,
- Abstract要約: 本研究の目的は、人間とのより没入的な相互作用が可能な「目と耳」をチャットボットに装備することである。
本稿では,マルチモーダルな会話データセットであるマルチモーダルなマルチセッション・マルチパーティ・会話について紹介する。
我々のモデルはM3C$で訓練され、複数の話者との長期会話をシームレスに行う能力を示している。
- 参考スコア(独自算出の注目度): 13.341099059080936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As chatbots continue to evolve toward human-like, real-world, interactions, multimodality remains an active area of research and exploration. So far, efforts to integrate multimodality into chatbots have primarily focused on image-centric tasks, such as visual dialogue and image-based instructions, placing emphasis on the "eyes" of human perception while neglecting the "ears", namely auditory aspects. Moreover, these studies often center around static interactions that focus on discussing the modality rather than naturally incorporating it into the conversation, which limits the richness of simultaneous, dynamic engagement. Furthermore, while multimodality has been explored in multi-party and multi-session conversations, task-specific constraints have hindered its seamless integration into dynamic, natural conversations. To address these challenges, this study aims to equip chatbots with "eyes and ears" capable of more immersive interactions with humans. As part of this effort, we introduce a new multimodal conversation dataset, Multimodal Multi-Session Multi-Party Conversation ($M^3C$), and propose a novel multimodal conversation model featuring multimodal memory retrieval. Our model, trained on the $M^3C$, demonstrates the ability to seamlessly engage in long-term conversations with multiple speakers in complex, real-world-like settings, effectively processing visual and auditory inputs to understand and respond appropriately. Human evaluations highlight the model's strong performance in maintaining coherent and dynamic interactions, demonstrating its potential for advanced multimodal conversational agents.
- Abstract(参考訳): チャットボットは人間のような現実世界の対話へと進化し続けており、マルチモーダル性は研究と探索の活発な領域である。
これまで、マルチモーダルをチャットボットに統合する取り組みは、主に視覚対話や画像に基づく指示といったイメージ中心のタスクに焦点を当てており、聴覚的側面である「耳」を無視しながら、人間の知覚の「目」に重点を置いてきた。
さらに、これらの研究は、会話に自然に組み込むのではなく、モダリティを議論する静的な相互作用に焦点を合わせており、これは同時的、動的なエンゲージメントの豊かさを制限する。
さらに、マルチモーダリティはマルチパーティやマルチセッションの会話において検討されているが、タスク固有の制約は、動的で自然な会話へのシームレスな統合を妨げる。
これらの課題に対処するため、本研究では、人間とのより没入的な相互作用が可能な「目と耳」をチャットボットに装備することを目的としている。
この取り組みの一環として,マルチモーダル・マルチセッション多人数会話データセット(M^3C$)を導入し,マルチモーダル・メモリを検索可能な新しいマルチモーダル・会話モデルを提案する。
我々のモデルはM^3C$で訓練され、複雑で現実的な設定で複数の話者と長時間の会話をシームレスに行う能力を示し、視覚的および聴覚的入力を効果的に処理し、理解と応答を適切に行う。
人間の評価は、コヒーレントでダイナミックな相互作用を維持する上でのモデルの強いパフォーマンスを強調し、高度なマルチモーダルな会話エージェントの可能性を示している。
関連論文リスト
- Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - VividListener: Expressive and Controllable Listener Dynamics Modeling for Multi-Modal Responsive Interaction [31.307004436877587]
提案するVividListenerは,細粒度,表現性,制御性を備えたリスナの動的モデリングを実現する新しいフレームワークである。
VividListenerは最先端のパフォーマンスを実現し、表現力と制御性のあるリスナのダイナミクスを実現する。
論文 参考訳(メタデータ) (2025-04-30T15:05:12Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z) - On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction [0.0]
ビデオ記録では、34人の人間とアバターのインタラクションを録画し、ビデオの抜粋で完全な言語的マイクロアナリシスを行い、マルチモーダル行動やイベントの発生を全て記録した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
本稿では,会話分析(CA)や認知科学,心の理論(ToM)などの知識を,人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案する。
論文 参考訳(メタデータ) (2022-11-24T21:17:36Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。