論文の概要: Scaling and Masking: A New Paradigm of Data Sampling for Image and Video
Quality Assessment
- arxiv url: http://arxiv.org/abs/2401.02614v1
- Date: Fri, 5 Jan 2024 03:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 16:05:36.239513
- Title: Scaling and Masking: A New Paradigm of Data Sampling for Image and Video
Quality Assessment
- Title(参考訳): スケーリングとマスキング: 画像とビデオの品質評価のためのデータサンプリングの新しいパラダイム
- Authors: Yongxu Liu, Yinghui Quan, Guoyao Xiao, Aobo Li, Jinjian Wu
- Abstract要約: 画像とビデオの品質評価は局所的な詳細とグローバルな意味の両方を強調するが、一般的なデータサンプリング手法はそれらを同時にキャッチできない。
本研究では,局所的および大域的コンテンツの両方を通常の入力サイズで圧縮する,よりエレガントなデータサンプリング手法を提案する。
実験により,本手法は,現在の単一ブランチモデルの性能を著しく向上し,余分なモデル複雑性を伴わないマルチブランチモデルに対する競合性能を実現することができることを示した。
- 参考スコア(独自算出の注目度): 24.545341041444797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality assessment of images and videos emphasizes both local details and
global semantics, whereas general data sampling methods (e.g., resizing,
cropping or grid-based fragment) fail to catch them simultaneously. To address
the deficiency, current approaches have to adopt multi-branch models and take
as input the multi-resolution data, which burdens the model complexity. In this
work, instead of stacking up models, a more elegant data sampling method (named
as SAMA, scaling and masking) is explored, which compacts both the local and
global content in a regular input size. The basic idea is to scale the data
into a pyramid first, and reduce the pyramid into a regular data dimension with
a masking strategy. Benefiting from the spatial and temporal redundancy in
images and videos, the processed data maintains the multi-scale characteristics
with a regular input size, thus can be processed by a single-branch model. We
verify the sampling method in image and video quality assessment. Experiments
show that our sampling method can improve the performance of current
single-branch models significantly, and achieves competitive performance to the
multi-branch models without extra model complexity. The source code will be
available at https://github.com/Sissuire/SAMA.
- Abstract(参考訳): 画像とビデオの品質評価は、ローカル詳細とグローバルセマンティクスの両方を強調しているが、一般的なデータサンプリング手法(リサイズ、クロッピング、グリッドベースのフラグメントなど)は同時にキャッチできない。
この欠陥に対処するためには、現在のアプローチではマルチブランチモデルを採用し、モデルの複雑さを負担するマルチ解像度データを入力する必要がある。
本研究では、モデルを積み重ねる代わりに、よりエレガントなデータサンプリング方法(sama, scaling, masking)が検討され、ローカルコンテンツとグローバルコンテンツの両方を通常の入力サイズでコンパクト化する。
基本的な考え方は、まずデータをピラミッドにスケールし、マスキング戦略でピラミッドを通常のデータ次元に縮小することだ。
画像やビデオの空間的および時間的冗長性から、処理されたデータは、通常の入力サイズでマルチスケール特性を維持でき、単一のブランチモデルで処理できる。
画像および映像品質評価におけるサンプリング手法を検証する。
実験により,本手法は,現在の単一ブランチモデルの性能を著しく向上し,余分なモデル複雑性を伴わないマルチブランチモデルに対する競合性能を実現することができることを示した。
ソースコードはhttps://github.com/Sissuire/SAMA.comで入手できる。
関連論文リスト
- VaLID: Variable-Length Input Diffusion for Novel View Synthesis [36.57742242154048]
新たなビュー合成(NVS)は、3次元ビジョンの基本的な問題である。
それぞれのポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入する。
可変長入力データを固定サイズ出力データにマッピングする多視点クロス前置モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:52:53Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Analog Bits: Generating Discrete Data using Diffusion Models with
Self-Conditioning [90.02873747873444]
ビット拡散(Bit Diffusion)は、連続拡散モデルを用いて離散データを生成する一般的な手法である。
提案手法は,画像生成タスクと画像キャプションタスクの両方において,高い性能を実現することができる。
MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。
論文 参考訳(メタデータ) (2022-08-08T15:08:40Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Anytime Sampling for Autoregressive Models via Ordered Autoencoding [88.01906682843618]
自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。
これらのモデルのサンプリングプロセスは割り込みを許さず、リアルタイムの計算資源に適応できない。
いつでもサンプリングできる新しい自動回帰モデルファミリーを提案します。
論文 参考訳(メタデータ) (2021-02-23T05:13:16Z) - Autoregressive Unsupervised Image Segmentation [8.894935073145252]
入力から構築した異なるビュー間の相互情報に基づく教師なし画像分割手法を提案する。
提案手法は、教師なし画像セグメント化における最先端技術よりも優れている。
論文 参考訳(メタデータ) (2020-07-16T10:47:40Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - DGSAC: Density Guided Sampling and Consensus [4.808421423598809]
Kernel Residual Densityは、inlierとoutlierの主な差別化要因である。
本稿では,2つのモデル選択アルゴリズム,最適2次プログラム,および欲求性を提案する。
平面分割, 運動分割, 点推定, 3次元点雲への平面整合, 直線, 円環整合など, 様々なタスクについて評価を行った。
論文 参考訳(メタデータ) (2020-06-03T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。