論文の概要: LiveSeg: Unsupervised Multimodal Temporal Segmentation of Long
Livestream Videos
- arxiv url: http://arxiv.org/abs/2210.05840v1
- Date: Wed, 12 Oct 2022 00:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:27:51.052599
- Title: LiveSeg: Unsupervised Multimodal Temporal Segmentation of Long
Livestream Videos
- Title(参考訳): LiveSeg: 長期ライブストリームビデオのマルチモーダル・テンポラル・セグメンテーション
- Authors: Jielin Qiu, Franck Dernoncourt, Trung Bui, Zhaowen Wang, Ding Zhao,
Hailin Jin
- Abstract要約: ライブストリームのチュートリアルビデオは通常数時間、録画され、ライブセッションの直後に直接インターネットにアップロードされるため、他の人がすぐに追いつくのが難しくなる。
アウトラインは有益なソリューションであり、トピックに応じてビデオが時間的にセグメント化される必要がある。
我々は、異なるドメインのマルチモーダル機能を生かした、教師なしのLivestreamビデオテンポラルソリューションLiveSegを提案する。
- 参考スコア(独自算出の注目度): 82.48910259277984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Livestream videos have become a significant part of online learning, where
design, digital marketing, creative painting, and other skills are taught by
experienced experts in the sessions, making them valuable materials. However,
Livestream tutorial videos are usually hours long, recorded, and uploaded to
the Internet directly after the live sessions, making it hard for other people
to catch up quickly. An outline will be a beneficial solution, which requires
the video to be temporally segmented according to topics. In this work, we
introduced a large Livestream video dataset named MultiLive, and formulated the
temporal segmentation of the long Livestream videos (TSLLV) task. We propose
LiveSeg, an unsupervised Livestream video temporal Segmentation solution, which
takes advantage of multimodal features from different domains. Our method
achieved a $16.8\%$ F1-score performance improvement compared with the
state-of-the-art method.
- Abstract(参考訳): ライブストリーミングビデオは、デザイン、デジタルマーケティング、クリエイティブ・ペインティング、その他のスキルが経験豊富な専門家によってセッションで教えられ、貴重な材料となるオンライン学習の重要な部分となっている。
しかし、ライブストリームのチュートリアルビデオは通常数時間で録画され、ライブセッション後に直接インターネットにアップロードされるため、他の人がすぐに追いつくのが難しくなる。
アウトラインは有益なソリューションであり、トピックに応じてビデオが時間的にセグメント化される必要がある。
本研究では,MultiLiveという大規模なLivestreamビデオデータセットを導入し,TSLLVタスクの時間的セグメンテーションを定式化した。
異なる領域のマルチモーダル機能を活用した,教師なしのライブストリームビデオテンポラリセグメンテーションソリューションである liveseg を提案する。
本手法は最新手法と比較して16.8 %のf1-score性能向上を達成した。
関連論文リスト
- Multimodal Language Models for Domain-Specific Procedural Video Summarization [0.0]
本研究では,ビデオ要約とステップ・バイ・ステップ・インストラクション生成のためのマルチモーダルモデルについて検討する。
提案手法は,料理や医療処置など特定の領域におけるパフォーマンスを向上させるための微調整のTimeChatに焦点をあてる。
以上の結果から, ドメイン固有の手続きデータに微調整を施すと, TimeChatは長めの動画において, 重要な指導ステップの抽出と要約を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2024-07-07T15:50:46Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts [8.070778830276275]
我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-01T02:35:58Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Tutorial Recommendation for Livestream Videos using Discourse-Level
Consistency and Ontology-Based Filtering [75.78484403289228]
本稿では,ライブストリーミングビデオのチュートリアルレコメンデーションタスクのための新しいデータセットとモデルを提案する。
システムは、ライブストリーミングビデオの内容を分析し、最も関連性の高いチュートリアルを推薦することができる。
論文 参考訳(メタデータ) (2022-09-11T22:45:57Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z) - Modeling Live Video Streaming: Real-Time Classification, QoE Inference,
and Field Evaluation [1.4353812560047186]
ReCLiveは、ネットワークレベルの挙動特性に基づいたライブビデオ検出およびQoE計測のための機械学習手法である。
TwitchとYouTubeの約23,000のビデオストリームを分析し、ライブとオンデマンドのストリーミングを区別するトラフィックプロファイルの重要な特徴を特定します。
私たちのソリューションは、ISPにライブビデオストリームの細かい可視性を提供し、ユーザエクスペリエンスの測定と改善を可能にします。
論文 参考訳(メタデータ) (2021-12-05T17:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。