論文の概要: Unified Image and Video Saliency Modeling
- arxiv url: http://arxiv.org/abs/2003.05477v3
- Date: Sat, 7 Nov 2020 13:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:06:09.327466
- Title: Unified Image and Video Saliency Modeling
- Title(参考訳): 統一画像とビデオ・サイレンシ・モデリング
- Authors: Richard Droste, Jianbo Jiao, J. Alison Noble
- Abstract要約: イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
- 参考スコア(独自算出の注目度): 21.701431656717112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual saliency modeling for images and videos is treated as two independent
tasks in recent computer vision literature. While image saliency modeling is a
well-studied problem and progress on benchmarks like SALICON and MIT300 is
slowing, video saliency models have shown rapid gains on the recent DHF1K
benchmark. Here, we take a step back and ask: Can image and video saliency
modeling be approached via a unified model, with mutual benefit? We identify
different sources of domain shift between image and video saliency data and
between different video saliency datasets as a key challenge for effective
joint modelling. To address this we propose four novel domain adaptation
techniques - Domain-Adaptive Priors, Domain-Adaptive Fusion, Domain-Adaptive
Smoothing and Bypass-RNN - in addition to an improved formulation of learned
Gaussian priors. We integrate these techniques into a simple and lightweight
encoder-RNN-decoder-style network, UNISAL, and train it jointly with image and
video saliency data. We evaluate our method on the video saliency datasets
DHF1K, Hollywood-2 and UCF-Sports, and the image saliency datasets SALICON and
MIT300. With one set of parameters, UNISAL achieves state-of-the-art
performance on all video saliency datasets and is on par with the
state-of-the-art for image saliency datasets, despite faster runtime and a 5 to
20-fold smaller model size compared to all competing deep methods. We provide
retrospective analyses and ablation studies which confirm the importance of the
domain shift modeling. The code is available at
https://github.com/rdroste/unisal
- Abstract(参考訳): 近年のコンピュータビジョン文献では、画像とビデオの視覚的相性モデリングが2つの独立したタスクとして扱われている。
SALICONやMIT300などのベンチマークの進捗は遅くなっているが、最近のDHF1Kベンチマークでは、ビデオサリエンシモデルが急速に向上している。
イメージとビデオの相性モデリングは、相互に利益のある統一されたモデルによってアプローチできますか?
画像と映像のサリエンシーデータと異なるビデオサリエンシーデータセット間の異なる領域シフト源を特定することは,効果的なジョイントモデリングの重要な課題である。
そこで本研究では,ドメイン適応優先法,ドメイン適応融合法,ドメイン適応平滑化法,Bypass-RNNという4つの新しいドメイン適応手法を提案する。
これらの手法を, 単純で軽量なエンコーダ-rnn-デコーダ型ネットワーク unisal に統合し, 画像と映像のバックアップデータと協調して訓練する。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像データを用いて評価を行った。
パラメータセットの1つで、UNISALはすべてのビデオサリエンシデータセットの最先端のパフォーマンスを達成し、より高速なランタイムと、競合するディープメソッドと比較して5~20倍のモデルサイズにもかかわらず、イメージサリエンシデータセットの最先端のパフォーマンスと同等である。
ドメインシフトモデリングの重要性を確認するためのふりかえり分析とアブレーション研究を提供する。
コードはhttps://github.com/rdroste/unisalで入手できる。
関連論文リスト
- GIM: Learning Generalizable Image Matcher From Internet Videos [18.974842517202365]
我々は,任意の画像マッチングアーキテクチャに基づいて,単一の一般化可能なモデルを学習するための自己学習フレームワークであるGIMを提案する。
また、画像マッチングのための最初のゼロショット評価ベンチマークであるZEBを提案する。
論文 参考訳(メタデータ) (2024-02-16T21:48:17Z) - NViST: In the Wild New View Synthesis from a Single Image with
Transformers [9.878414824892783]
単一画像からの新規ビュー合成のためのトランスフォーマーモデルであるNViSTを提案する。
複雑な背景を持つWildイメージの大規模なデータセットに基づいてトレーニングされる。
MVImgNetの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャ結果も示す。
論文 参考訳(メタデータ) (2023-12-13T23:41:17Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [54.69152493715424]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。