論文の概要: The Unreasonable Effectiveness of Linear Prediction as a Perceptual
Metric
- arxiv url: http://arxiv.org/abs/2310.05986v1
- Date: Fri, 6 Oct 2023 19:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:31:20.448672
- Title: The Unreasonable Effectiveness of Linear Prediction as a Perceptual
Metric
- Title(参考訳): 知覚的指標としての線形予測の不合理性
- Authors: Daniel Severo, Lucas Theis, Johannes Ball\'e
- Abstract要約: 我々は、トレーニングデータやディープニューラルネットワーク機能なしで、視覚系の知覚的な埋め込みが、どのようにして推論時に構築できるかを示す。
我々の知覚埋め込みは、ピクセルレベルで定義された重み付き最小二乗問題(WLS)の解であり、推論時に解かれる。
- 参考スコア(独自算出の注目度): 6.1693649058046764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how perceptual embeddings of the visual system can be constructed at
inference-time with no training data or deep neural network features. Our
perceptual embeddings are solutions to a weighted least squares (WLS) problem,
defined at the pixel-level, and solved at inference-time, that can capture
global and local image characteristics. The distance in embedding space is used
to define a perceptual similarity metric which we call LASI: Linear
Autoregressive Similarity Index. Experiments on full-reference image quality
assessment datasets show LASI performs competitively with learned deep feature
based methods like LPIPS (Zhang et al., 2018) and PIM (Bhardwaj et al., 2020),
at a similar computational cost to hand-crafted methods such as MS-SSIM (Wang
et al., 2003). We found that increasing the dimensionality of the embedding
space consistently reduces the WLS loss while increasing performance on
perceptual tasks, at the cost of increasing the computational complexity. LASI
is fully differentiable, scales cubically with the number of embedding
dimensions, and can be parallelized at the pixel-level. A Maximum
Differentiation (MAD) competition (Wang & Simoncelli, 2008) between LASI and
LPIPS shows that both methods are capable of finding failure points for the
other, suggesting these metrics can be combined.
- Abstract(参考訳): 学習データやディープニューラルネットワーク機能なしで、視覚システムの知覚的埋め込みが推論時にどのように構築されるかを示す。
我々の知覚埋め込みは、画素レベルで定義され、推論時に解決される重み付き最小二乗問題に対する解であり、グローバルおよび局所的な画像特性を捉えることができる。
埋め込み空間における距離は、LASI: Linear Autoregressive similarity Indexと呼ばれる知覚的類似度計量を定義するために用いられる。
フルリファレンス画像品質評価データセットの実験では、LPIPS (Zhang et al., 2018) や PIM (Bhardwaj et al., 2020) といった学習深い特徴ベースの手法と、MS-SSIM (Wang et al., 2003) のような手作りの手法と同じような計算コストで競合することを示した。
組込み空間の次元性の向上は、計算複雑性を増大させるコストで、知覚タスクの性能を高めながら、WLS損失を一貫して減少させることがわかった。
lasiは完全に微分可能で、埋め込み次元の数で立方的にスケールし、ピクセルレベルで並列化することができる。
LASI と LPIPS の最大微分 (MAD) 競合 (Wang & Simoncelli, 2008) は、両方の手法が他方の障害点を見つけることができることを示している。
関連論文リスト
- Efficient Learnable Collaborative Attention for Single Image Super-Resolution [18.955369476815136]
非局所注意(NLA)は、深部画像超解像(SR)における長距離特徴相関を捉える強力な手法である
本稿では,非局所的モデリングに帰納バイアスを導入する新しい学習可能協調意識(LCoA)を提案する。
我々のLCoAは、推論段階での非局所モデリング時間を約83%削減できる。
論文 参考訳(メタデータ) (2024-04-07T11:25:04Z) - LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation [0.0]
LRP-QViTは、異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく手法である。
実験結果から,固定ビット・混合ビット後量子化法が既存の4ビット・6ビット量子化法を超越していることが判明した。
論文 参考訳(メタデータ) (2024-01-20T14:53:19Z) - Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - Towards Better Gradient Consistency for Neural Signed Distance Functions
via Level Set Alignment [50.892158511845466]
レベルセットの並列性によって示される場の勾配一貫性が、推論精度に影響を及ぼす重要な要因であることを示す。
そこで本研究では,次数集合の並列性を評価するためのレベルセットアライメント損失を提案する。
論文 参考訳(メタデータ) (2023-05-19T11:28:05Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Transductive Few-Shot Classification on the Oblique Manifold [5.115651633703363]
限られたデータで学習しようとする学習は少ない。
本研究では,ユークリッド空間における特徴抽出を行う。
また,空間ピラミッドプールを用いた非パラメトリック領域自己アテンションを提案する。
論文 参考訳(メタデータ) (2021-08-09T13:01:03Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Leveraging Spatial and Photometric Context for Calibrated Non-Lambertian
Photometric Stereo [61.6260594326246]
空間と測光の両方を同時に活用できる効率的な完全畳み込みアーキテクチャを提案する。
分離可能な4D畳み込みと2D熱マップを使うことで、サイズが小さくなり、効率が向上する。
論文 参考訳(メタデータ) (2021-03-22T18:06:58Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Deep Probabilistic Feature-metric Tracking [27.137827823264942]
画素単位の深度特徴写像と深度特徴量不確実性写像を学習するための新しいフレームワークを提案する。
CNNは、より高速で信頼性の高い収束のための深い初期ポーズを予測する。
実験により,TUM RGB-Dデータセットと3次元剛性物体追跡データセットの最先端性能が示された。
論文 参考訳(メタデータ) (2020-08-31T11:47:59Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。