論文の概要: LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts
- arxiv url: http://arxiv.org/abs/2311.12826v1
- Date: Sun, 1 Oct 2023 02:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:33:36.545964
- Title: LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts
- Title(参考訳): LiveChat: オーディオ・ビジュアルマルチモーダルコンテキストによるビデオコメント生成
- Authors: Julien Lalanne, Raphael Bournet, Yi Yu
- Abstract要約: 我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
- 参考スコア(独自算出の注目度): 8.070778830276275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Live commenting on video, a popular feature of live streaming platforms,
enables viewers to engage with the content and share their comments, reactions,
opinions, or questions with the streamer or other viewers while watching the
video or live stream. It presents a challenging testbed for AI agents, which
involves the simultaneous understanding of audio-visual multimodal contexts
from live streams and the ability to interact with human viewers through
dialogue. As existing live streaming-based comments datasets contain limited
categories and lack a diversity, we create a large-scale audio-visual
multimodal dialogue dataset to facilitate the development of live commenting
technologies. The data is collected from Twitch, with 11 different categories
and 575 streamers for a total of 438 hours of video and 3.2 million comments.
Moreover, we propose a novel multimodal generation model capable of generating
live comments that align with the temporal and spatial events within the video,
as well as with the ongoing multimodal dialogue context. Our initial results
have demonstrated the effectiveness of the proposed model, providing a robust
foundation for further research and practical applications in the field of live
video interaction.
- Abstract(参考訳): ライブストリーミングプラットフォームの人気のある機能であるライブコメントでは、視聴者はビデオやライブストリームを見ながら、コンテンツと関わり、コメント、反応、意見、質問をストリーマーや他の視聴者と共有することができる。
ライブストリームからの音声と視覚のマルチモーダルコンテキストの同時理解と、対話を通じて人間の視聴者と対話する能力を含む、AIエージェントのための挑戦的なテストベッドを提供する。
既存のライブストリーミングベースのコメントデータセットには、限られたカテゴリが含まれ、多様性が欠如しているため、ライブコメント技術の開発を容易にするために、大規模オーディオ・マルチモーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
さらに,ビデオ内の時間的・空間的イベントや現在進行中のマルチモーダル対話コンテキストに合わせて,ライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
本稿では,提案モデルの有効性を実証し,ライブビデオインタラクションの分野におけるさらなる研究と実用化のための強固な基礎を提供する。
関連論文リスト
- VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Multimodal Matching Transformer for Live Commenting [97.06576354830736]
自動的なライブコメントは、視聴者にリアルタイムでビデオに対するコメントを提供することを目的としている。
このタスクの最近の研究は、コメントを生成するエンコーダ-デコーダモデルを採用している。
本稿では,コメント,視覚,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
論文 参考訳(メタデータ) (2020-02-07T07:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。