論文の概要: Feature Re-Learning with Data Augmentation for Video Relevance
Prediction
- arxiv url: http://arxiv.org/abs/2004.03815v1
- Date: Wed, 8 Apr 2020 05:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 09:30:04.914320
- Title: Feature Re-Learning with Data Augmentation for Video Relevance
Prediction
- Title(参考訳): 映像関連予測のためのデータ拡張による特徴再学習
- Authors: Jianfeng Dong, Xun Wang, Leimin Zhang, Chaoxi Xu, Gang Yang, Xirong Li
- Abstract要約: 再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 35.87597969685573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the relevance between two given videos with respect to their
visual content is a key component for content-based video recommendation and
retrieval. Thanks to the increasing availability of pre-trained image and video
convolutional neural network models, deep visual features are widely used for
video content representation. However, as how two videos are relevant is
task-dependent, such off-the-shelf features are not always optimal for all
tasks. Moreover, due to varied concerns including copyright, privacy and
security, one might have access to only pre-computed video features rather than
original videos. We propose in this paper feature re-learning for improving
video relevance prediction, with no need of revisiting the original video
content. In particular, re-learning is realized by projecting a given deep
feature into a new space by an affine transformation. We optimize the
re-learning process by a novel negative-enhanced triplet ranking loss. In order
to generate more training data, we propose a new data augmentation strategy
which works directly on frame-level and video-level features. Extensive
experiments in the context of the Hulu Content-based Video Relevance Prediction
Challenge 2018 justify the effectiveness of the proposed method and its
state-of-the-art performance for content-based video relevance prediction.
- Abstract(参考訳): 視覚コンテンツに対する2つのビデオ間の関連性を予測することは、コンテンツベースのビデオレコメンデーションと検索の重要な要素である。
事前訓練された画像とビデオ畳み込みニューラルネットワークモデルの可用性の向上により、深い視覚的特徴がビデオコンテンツ表現に広く使用されている。
しかし、2つのビデオがタスクに依存しているため、このようなオフザシェルフ機能は必ずしもすべてのタスクに最適ではない。
さらに、著作権、プライバシー、セキュリティなどさまざまな懸念があるため、オリジナルのビデオではなく、事前にコンパイルされたビデオ機能のみにアクセスすることができる。
本稿では,ビデオコンテンツの再検討を必要とせず,映像関連度予測を改善するための特徴再学習を提案する。
特に、アフィン変換によって与えられた深い特徴を新しい空間に投影することで再学習を実現する。
我々は、新たな負の3重項ランキング損失による再学習プロセスを最適化する。
より多くのトレーニングデータを生成するために,フレームレベルおよびビデオレベルの機能に直接作用する新しいデータ拡張戦略を提案する。
hulu content-based video associated prediction challenge 2018の文脈での広範な実験は、提案手法の有効性と、コンテンツベースのビデオ関連予測における最先端のパフォーマンスを正当化する。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Retargeting video with an end-to-end framework [14.270721529264929]
本稿では,動画を任意の比率に再ターゲティングするためのエンドツーエンドのRETVI手法を提案する。
私たちのシステムは、以前よりも品質と実行時間で優れています。
論文 参考訳(メタデータ) (2023-11-08T04:56:41Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Video Content Classification using Deep Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせたモデルを提案する。
モデルは、動画コンテンツの種類を特定し、それらを「アニメーション、ゲーム、自然コンテンツ、フラットコンテンツ」などのカテゴリに分類することができる。
論文 参考訳(メタデータ) (2021-11-27T04:36:17Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - The complementarity of a diverse range of deep learning features
extracted from video content for video recommendation [2.092922495279074]
我々は、ビデオレコメンデーションを提供するための様々なディープラーニング機能の可能性を探究する。
映画レコメンデーションのための実世界のビデオデータセットの実験では、ディープラーニングの機能は手作りの機能よりも優れていることが示されている。
特に、ディープラーニングオーディオ機能とアクション中心のディープラーニング機能によって生成されるレコメンデーションは、MFCCや最先端のiDT機能よりも優れている。
論文 参考訳(メタデータ) (2020-11-21T18:00:28Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。