論文の概要: Video Ads Content Structuring by Combining Scene Confidence Prediction
and Tagging
- arxiv url: http://arxiv.org/abs/2108.09215v1
- Date: Fri, 20 Aug 2021 15:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:23:33.973874
- Title: Video Ads Content Structuring by Combining Scene Confidence Prediction
and Tagging
- Title(参考訳): シーン信頼度予測とタグ付けを組み合わせた映像広告コンテンツ構造化
- Authors: Tomoyuki Suzuki and Antonio Tejero-de-Pablos
- Abstract要約: そこで本研究では,まずシーン境界を提供し,各シーンに対する信頼度スコアと,そのシーンに予測されるタグクラスを組み合わせた2段階の手法を提案する。
我々の組み合わせた手法は、挑戦的な“Tencent〜ビデオ”データセットの以前のベースラインを改善します。
- 参考スコア(独自算出の注目度): 10.609715843964263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video ads segmentation and tagging is a challenging task due to two main
reasons: (1) the video scene structure is complex and (2) it includes multiple
modalities (e.g., visual, audio, text.). While previous work focuses mostly on
activity videos (e.g. "cooking", "sports"), it is not clear how they can be
leveraged to tackle the task of video ads content structuring. In this paper,
we propose a two-stage method that first provides the boundaries of the scenes,
and then combines a confidence score for each segmented scene and the tag
classes predicted for that scene. We provide extensive experimental results on
the network architectures and modalities used for the proposed method. Our
combined method improves the previous baselines on the challenging "Tencent
Advertisement Video" dataset.
- Abstract(参考訳): ビデオ広告のセグメンテーションとタグ付けは、(1)ビデオシーンの構造が複雑で(2)複数のモダリティ(例えば、視覚、音声、テキストなど)が含まれている、という2つの主な理由から難しい課題である。
以前の作品は、主にアクティビティビデオ(例えば)に焦点を当てていた。
「クッキング」「スポーツ」) ビデオ広告コンテンツ構造化の課題に取り組むためにどのように活用できるかは明らかになっていない。
本稿では,まずシーンの境界を提示し,各シーンに対する信頼度スコアと,そのシーンに予測されるタグクラスを組み合わせた2段階の手法を提案する。
提案手法に用いたネットワークアーキテクチャとモダリティに関する広範な実験結果を提供する。
我々の組み合わせた手法は、挑戦的な“Tencent〜ビデオ”データセットの以前のベースラインを改善する。
関連論文リスト
- Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - Multi-modal Segment Assemblage Network for Ad Video Editing with
Importance-Coherence Reward [34.06878258459702]
動画編集は、広告ビデオを短いビデオに自動的に編集し、一貫性のあるコンテンツと広告主が伝える重要な情報を保持することを目的としています。
既存の手法はビデオセグメンテーションの段階では良好に機能するが、セグメンテーションの段階では余分な煩雑なモデルに依存し、性能が劣る。
本稿では,効率よく一貫性のあるセグメントアセンブラタスクをエンド・ツー・エンドで実現可能なM-SANを提案する。
論文 参考訳(メタデータ) (2022-09-25T06:51:45Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文 参考訳(メタデータ) (2021-09-27T03:22:12Z) - Overview of Tencent Multi-modal Ads Video Understanding Challenge [1.6904374000330984]
マルチモーダル広告ビデオ理解チャレンジ(Multi-modal Ads Video Understanding Challenge)は、広告ビデオを包括的に理解するための最初の大きな挑戦だ。
参加者には、各シーンのシーン境界とマルチラベルカテゴリの両方を正確に予測するように求めている。
広告の理解の基盤を前進させ、ビデオレコメンデーションのような多くの広告アプリケーションに大きな影響を与えるだろう。
論文 参考訳(メタデータ) (2021-09-16T13:07:08Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。