論文の概要: Extraction and Summarization of Explicit Video Content using Multi-Modal
Deep Learning
- arxiv url: http://arxiv.org/abs/2311.10899v1
- Date: Tue, 21 Nov 2023 02:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 13:48:39.700359
- Title: Extraction and Summarization of Explicit Video Content using Multi-Modal
Deep Learning
- Title(参考訳): マルチモーダル深層学習による露骨な映像コンテンツの抽出と要約
- Authors: Shaunak Joshi, Raghav Gaggar
- Abstract要約: 本稿では,マルチモーダル深層学習を用いて,まず入力ビデオの明示的なセグメントを抽出し,テキストを用いてコンテンツを要約し,その年齢と年齢を判定するパイプラインを提案する。
また、標準メトリクスを使用して、最後にパイプラインの有効性を評価します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increase in video-sharing platforms across the internet, it is
difficult for humans to moderate the data for explicit content. Hence, an
automated pipeline to scan through video data for explicit content has become
the need of the hour. We propose a novel pipeline that uses multi-modal deep
learning to first extract the explicit segments of input videos and then
summarize their content using text to determine its age appropriateness and age
rating. We also evaluate our pipeline's effectiveness in the end using standard
metrics.
- Abstract(参考訳): インターネット全体のビデオ共有プラットフォームの増加に伴い、人間が明示的なコンテンツのためにデータをモデレートすることは困難である。
したがって、明示的なコンテンツのためにビデオデータをスキャンする自動パイプラインが、時間を必要としている。
本稿では,マルチモーダル深層学習を用いて,まず入力ビデオの明示的なセグメントを抽出し,テキストを用いてコンテンツを要約し,その年齢と年齢を判定するパイプラインを提案する。
また、標準メトリクスを使用して、最後にパイプラインの有効性を評価します。
関連論文リスト
- Personalized Video Summarization by Multimodal Video Understanding [2.1372652192505703]
本稿では,ビデオ要約のためのVSL (Video Summarization with Language) というパイプラインを提案する。
VSLは、トレーニング済みのビジュアル言語モデル(VLM)に基づいて、大規模なトレーニングデータセット上でビデオ要約システムをトレーニングする必要がない。
提案手法は,教師付きクエリに基づくビデオ要約モデルと比較して,異なるデータセットに対してより適応可能であることを示す。
論文 参考訳(メタデータ) (2024-11-05T22:14:35Z) - Delving Deep into Engagement Prediction of Short Videos [34.38399476375175]
本研究は,ユーザインタラクションが限定されたビデオのエンゲージメント予測の難しさを深く掘り下げるものである。
Snapchatの90,000の現実世界のショートビデオからなる、実質的なデータセットを紹介します。
本手法は,映像コンテンツから映像のエンゲージメントを純粋に予測できることを示す。
論文 参考訳(メタデータ) (2024-09-30T23:57:07Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Query-aware Long Video Localization and Relation Discrimination for Deep
Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。
本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。
本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文 参考訳(メタデータ) (2023-10-19T13:26:02Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。