論文の概要: Multi-modal Segment Assemblage Network for Ad Video Editing with
Importance-Coherence Reward
- arxiv url: http://arxiv.org/abs/2209.12164v1
- Date: Sun, 25 Sep 2022 06:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 15:03:23.574609
- Title: Multi-modal Segment Assemblage Network for Ad Video Editing with
Importance-Coherence Reward
- Title(参考訳): 重要コヒーレンスリワードによる広告ビデオ編集のためのマルチモーダルセグメントアセンブラネットワーク
- Authors: Yunlong Tang, Siting Xu, Teng Wang, Qin Lin, Qinglin Lu, Feng Zheng
- Abstract要約: 動画編集は、広告ビデオを短いビデオに自動的に編集し、一貫性のあるコンテンツと広告主が伝える重要な情報を保持することを目的としています。
既存の手法はビデオセグメンテーションの段階では良好に機能するが、セグメンテーションの段階では余分な煩雑なモデルに依存し、性能が劣る。
本稿では,効率よく一貫性のあるセグメントアセンブラタスクをエンド・ツー・エンドで実現可能なM-SANを提案する。
- 参考スコア(独自算出の注目度): 34.06878258459702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advertisement video editing aims to automatically edit advertising videos
into shorter videos while retaining coherent content and crucial information
conveyed by advertisers. It mainly contains two stages: video segmentation and
segment assemblage. The existing method performs well at video segmentation
stages but suffers from the problems of dependencies on extra cumbersome models
and poor performance at the segment assemblage stage. To address these
problems, we propose M-SAN (Multi-modal Segment Assemblage Network) which can
perform efficient and coherent segment assemblage task end-to-end. It utilizes
multi-modal representation extracted from the segments and follows the
Encoder-Decoder Ptr-Net framework with the Attention mechanism.
Importance-coherence reward is designed for training M-SAN. We experiment on
the Ads-1k dataset with 1000+ videos under rich ad scenarios collected from
advertisers. To evaluate the methods, we propose a unified metric,
Imp-Coh@Time, which comprehensively assesses the importance, coherence, and
duration of the outputs at the same time. Experimental results show that our
method achieves better performance than random selection and the previous
method on the metric. Ablation experiments further verify that multi-modal
representation and importance-coherence reward significantly improve the
performance. Ads-1k dataset is available at:
https://github.com/yunlong10/Ads-1k
- Abstract(参考訳): 動画編集は、広告ビデオを短いビデオに自動的に編集し、一貫性のあるコンテンツと広告主が伝える重要な情報を保持します。
主にビデオセグメンテーションとセグメンテーションの2つのステージを含んでいる。
既存の手法はビデオセグメンテーションの段階では良好に機能するが,セグメンテーションの段階では,余分な煩雑なモデルへの依存の問題や性能の低下に悩まされている。
これらの問題に対処するため,M-SAN(Multi-modal Segment Assemblage Network)を提案する。
セグメントから抽出したマルチモーダル表現を利用し、注意機構を備えたエンコーダデコーダptr-netフレームワークに従う。
重要コヒーレンス報酬はM-SANの訓練のために設計されている。
広告主が収集したリッチな広告シナリオの下で1000以上の動画でAds-1kデータセットを実験した。
提案手法を評価するために,出力の重要性,コヒーレンス,持続時間を総合的に評価する統一計量Imp-Coh@Timeを提案する。
実験結果から,本手法は無作為選択法と先行手法よりも優れた性能が得られることがわかった。
アブレーション実験により、マルチモーダル表現と重要コヒーレンス報酬が性能を大幅に向上することを確認する。
Ads-1kデータセットは、https://github.com/yunlong10/Ads-1kで利用可能である。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Multi-modal Representation Learning for Video Advertisement Content
Structuring [10.45050088240847]
ビデオ広告コンテンツ構造化は、所定のビデオ広告を分割し、各セグメントを様々な次元にラベル付けすることを目的としている。
ビデオ広告は、キャプションやスピーチのような十分かつ有用なマルチモーダルコンテンツを含んでいる。
ビデオ音声とテキストの対話により,ビデオ広告からマルチモーダル表現を学習するためのマルチモーダルエンコーダを提案する。
論文 参考訳(メタデータ) (2021-09-04T09:08:29Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - MINI-Net: Multiple Instance Ranking Network for Video Highlight
Detection [71.02649475990889]
本稿では,複数のインスタンスランキングネットワーク(MINI-Net)学習として,ある特定のイベントに対する弱教師付きビデオハイライト検出モデルを提案する。
MINI-Netは、特定のイベントのハイライトセグメントを含む正のバッグに対して、無関係な負のバッグよりも高いハイライトスコアを強制することを学ぶ。
論文 参考訳(メタデータ) (2020-07-20T01:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。