論文の概要: A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data
- arxiv url: http://arxiv.org/abs/2008.09103v1
- Date: Sun, 2 Aug 2020 13:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:38:13.671642
- Title: A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data
- Title(参考訳): 映像データに対する画像サリエンシー深層モデル適応のためのプラグ・アンド・プレイ方式
- Authors: Yunxiao Li, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin
- Abstract要約: 本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
- 参考スコア(独自算出の注目度): 54.198279280967185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of deep learning techniques, image saliency deep
models trained solely by spatial information have occasionally achieved
detection performance for video data comparable to that of the models trained
by both spatial and temporal information. However, due to the lesser
consideration of temporal information, the image saliency deep models may
become fragile in the video sequences dominated by temporal information. Thus,
the most recent video saliency detection approaches have adopted the network
architecture starting with a spatial deep model that is followed by an
elaborately designed temporal deep model. However, such methods easily
encounter the performance bottleneck arising from the single stream learning
methodology, so the overall detection performance is largely determined by the
spatial deep model. In sharp contrast to the current mainstream methods, this
paper proposes a novel plug-and-play scheme to weakly retrain a pretrained
image saliency deep model for video data by using the newly sensed and coded
temporal information. Thus, the retrained image saliency deep model will be
able to maintain temporal saliency awareness, achieving much improved detection
performance. Moreover, our method is simple yet effective for adapting any
off-the-shelf pre-trained image saliency deep model to obtain high-quality
video saliency detection. Additionally, both the data and source code of our
method are publicly available.
- Abstract(参考訳): 深層学習技術の急速な発展により、空間情報のみによって訓練された画像塩分深層モデルは時折、空間情報と時間情報の両方で訓練されたモデルに匹敵する映像データの検出性能を達成している。
しかし、時間情報の考慮が少なくなるため、時間情報に支配される映像系列において、画像の鮮度深度モデルが脆弱になる可能性がある。
このように、最新のビデオサリエンシー検出手法では、空間的深層モデルから始まり、精巧に設計された時間的深層モデルからネットワークアーキテクチャを採用する。
しかし,そのような手法は単一ストリーム学習手法から生じる性能ボトルネックに容易に遭遇するので,全体の検出性能は空間的深層モデルによって決定される。
本稿では,現在の主流手法とは対照的に,新たに検出・符号化された時間情報を用いて映像データに対する事前訓練された画像サリエンシー深層モデルを弱く再訓練する新しいプラグ・アンド・プレイ方式を提案する。
したがって、再訓練された画像サリエンシー深層モデルは、時間的サリエンシー認識を維持でき、検出性能が大幅に向上する。
さらに,本手法は,既訓練画像の深度モデルに適応して,高品質な映像の鮮度検出を実現するのに有効である。
さらに,本手法のデータとソースコードも公開されている。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Flatten: Video Action Recognition is an Image Classification task [15.518011818978074]
新たなビデオ表現アーキテクチャであるFlattenは、プラグイン・アンド・プレイモジュールとして機能し、任意の画像理解ネットワークにシームレスに統合できる。
一般的に使用されるデータセットの実験では、Flattenの埋め込みはオリジナルのモデルよりも大幅なパフォーマンス向上をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-08-17T14:59:58Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - DepthFM: Fast Monocular Depth Estimation with Flow Matching [22.206355073676082]
この問題に対する現在の差別的アプローチは、ぼやけた人工物のために限られている。
最先端の生成法は、SDEの性質上、サンプリングが遅い。
解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。
論文 参考訳(メタデータ) (2024-03-20T17:51:53Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - Why-So-Deep: Towards Boosting Previously Trained Models for Visual Place
Recognition [12.807343105549409]
画像のリコールを改善するために,事前学習モデルのパワーを増幅する知的手法MAQBOOLを提案する。
我々は,最先端手法の高記述次元 (4096-D) と比較して,低記述次元 (512-D) で画像検索結果に匹敵する結果を得た。
論文 参考訳(メタデータ) (2022-01-10T08:39:06Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Cascaded Deep Video Deblurring Using Temporal Sharpness Prior [88.98348546566675]
提案アルゴリズムは主に,中間潜水フレームと潜水フレームの復元ステップから光フローを推定する。
まず、中間潜伏フレームから光フローを推定し、推定した光フローに基づいて潜伏フレームを復元する深部CNNモデルを開発する。
ビデオデブロアリングのドメイン知識を探索することで、深層CNNモデルをよりコンパクトで効率的なものにすることができることを示す。
論文 参考訳(メタデータ) (2020-04-06T09:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。