論文の概要: CompanionCast: A Multi-Agent Conversational AI Framework with Spatial Audio for Social Co-Viewing Experiences
- arxiv url: http://arxiv.org/abs/2512.10918v1
- Date: Thu, 11 Dec 2025 18:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.538844
- Title: CompanionCast: A Multi-Agent Conversational AI Framework with Spatial Audio for Social Co-Viewing Experiences
- Title(参考訳): CompanionCast: ソーシャルコビューアエクスペリエンスのための空間オーディオを備えたマルチエージェント対話型AIフレームワーク
- Authors: Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah Hester,
- Abstract要約: 社会的存在はコンテンツを一緒に見ることの楽しみの中心であるが、現代のメディア消費はますます孤独になっている。
我々は,多エージェント対話型AIシステムが,多様なコンテンツタイプにわたる共有視聴体験のダイナミクスを再現できるかどうかを検討する。
ビデオコンテンツに応答する複数のロール特化AIエージェントを編成する一般的なフレームワークであるCompanionCastを提案する。
- 参考スコア(独自算出の注目度): 10.985715950187519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social presence is central to the enjoyment of watching content together, yet modern media consumption is increasingly solitary. We investigate whether multi-agent conversational AI systems can recreate the dynamics of shared viewing experiences across diverse content types. We present CompanionCast, a general framework for orchestrating multiple role-specialized AI agents that respond to video content using multimodal inputs, speech synthesis, and spatial audio. Distinctly, CompanionCast integrates an LLM-as-a-Judge module that iteratively scores and refines conversations across five dimensions (relevance, authenticity, engagement, diversity, personality consistency). We validate this framework through sports viewing, a domain with rich dynamics and strong social traditions, where a pilot study with soccer fans suggests that multi-agent interaction improves perceived social presence compared to solo viewing. We contribute: (1) a generalizable framework for orchestrating multi-agent conversations around multimodal video content, (2) a novel evaluator-agent pipeline for conversation quality control, and (3) exploratory evidence of increased social presence in AI-mediated co-viewing. We discuss challenges and future directions for applying this approach to diverse viewing contexts including entertainment, education, and collaborative watching experiences.
- Abstract(参考訳): 社会的存在はコンテンツを一緒に見ることの楽しみの中心であるが、現代のメディア消費はますます孤独になっている。
我々は,多エージェント対話型AIシステムが,多様なコンテンツタイプにわたる共有視聴体験のダイナミクスを再現できるかどうかを検討する。
マルチモーダル入力,音声合成,空間音声を用いて映像コンテンツに応答する複数の役割特化AIエージェントを編成する一般的なフレームワークであるCompanionCastを提案する。
CompanionCastは、LLM-as-a-Judgeモジュールを統合し、5次元にわたる会話(関連性、信頼性、エンゲージメント、多様性、パーソナリティの整合性)を反復的にスコアし、洗練する。
スポーツ観戦, 豊かなダイナミクスと強い社会的伝統を持つドメインを通じて, この枠組みを検証し, サッカーファンとのパイロットスタディにより, 単独観戦に比べてマルチエージェントインタラクションが社会的存在感を向上させることが示唆された。
コントリビューションとして,(1)マルチモーダルビデオコンテンツに関するマルチエージェント会話を整理する汎用フレームワーク,(2)会話品質管理のための新しい評価器・エージェントパイプライン,(3)AIによるコビューングにおける社会的存在感の向上に関する探索的証拠を提示する。
エンターテイメント、教育、共同視聴体験を含む多様な視聴状況にこのアプローチを適用する上での課題と今後の方向性について論じる。
関連論文リスト
- MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [41.188841829937466]
MoMentS (Multimodal Mental States) は、社会的にインテリジェントなマルチモーダルエージェントを構築するためのベンチマークである。
MoMentSには、7つの異なるToMカテゴリにまたがる2300以上の多重選択質問が含まれている。
いくつかのMLLMを評価し、ビジョンは一般的に性能を改善するが、モデルがそれを効果的に統合するのに苦戦していることを発見した。
論文 参考訳(メタデータ) (2025-07-06T15:06:30Z) - SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。
SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。
また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文 参考訳(メタデータ) (2025-06-05T05:51:35Z) - Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions [13.341099059080936]
本研究の目的は、人間とのより没入的な相互作用が可能な「目と耳」をチャットボットに装備することである。
本稿では,マルチモーダルな会話データセットであるマルチモーダルなマルチセッション・マルチパーティ・会話について紹介する。
我々のモデルはM3C$で訓練され、複数の話者との長期会話をシームレスに行う能力を示している。
論文 参考訳(メタデータ) (2025-05-31T06:50:51Z) - Towards Online Multi-Modal Social Interaction Understanding [36.37278022436327]
本稿では,記録された対話やビデオストリームなどの履歴情報のみを用いて,MMSIタスクをモデルが解決しなければならないオンラインMMSI設定を提案する。
マルチパーティ会話予測とソーシャル・アウェア・ビジュアル・プロンプトという2つの補完的戦略を活用する新しいフレームワークである Online-MMSI-VLM を開発した。
提案手法は最先端の性能を達成し,ベースラインモデルを大幅に上回り,オンラインMMSIにおける有効性を示す。
論文 参考訳(メタデータ) (2025-03-25T17:17:19Z) - Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts [8.070778830276275]
我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-01T02:35:58Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。