論文の概要: The Unreasonable Effectiveness of Linear Prediction as a Perceptual
Metric
- arxiv url: http://arxiv.org/abs/2310.05986v1
- Date: Fri, 6 Oct 2023 19:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:31:20.448672
- Title: The Unreasonable Effectiveness of Linear Prediction as a Perceptual
Metric
- Title(参考訳): 知覚的指標としての線形予測の不合理性
- Authors: Daniel Severo, Lucas Theis, Johannes Ball\'e
- Abstract要約: 我々は、トレーニングデータやディープニューラルネットワーク機能なしで、視覚系の知覚的な埋め込みが、どのようにして推論時に構築できるかを示す。
我々の知覚埋め込みは、ピクセルレベルで定義された重み付き最小二乗問題(WLS)の解であり、推論時に解かれる。
- 参考スコア(独自算出の注目度): 6.1693649058046764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how perceptual embeddings of the visual system can be constructed at
inference-time with no training data or deep neural network features. Our
perceptual embeddings are solutions to a weighted least squares (WLS) problem,
defined at the pixel-level, and solved at inference-time, that can capture
global and local image characteristics. The distance in embedding space is used
to define a perceptual similarity metric which we call LASI: Linear
Autoregressive Similarity Index. Experiments on full-reference image quality
assessment datasets show LASI performs competitively with learned deep feature
based methods like LPIPS (Zhang et al., 2018) and PIM (Bhardwaj et al., 2020),
at a similar computational cost to hand-crafted methods such as MS-SSIM (Wang
et al., 2003). We found that increasing the dimensionality of the embedding
space consistently reduces the WLS loss while increasing performance on
perceptual tasks, at the cost of increasing the computational complexity. LASI
is fully differentiable, scales cubically with the number of embedding
dimensions, and can be parallelized at the pixel-level. A Maximum
Differentiation (MAD) competition (Wang & Simoncelli, 2008) between LASI and
LPIPS shows that both methods are capable of finding failure points for the
other, suggesting these metrics can be combined.
- Abstract(参考訳): 学習データやディープニューラルネットワーク機能なしで、視覚システムの知覚的埋め込みが推論時にどのように構築されるかを示す。
我々の知覚埋め込みは、画素レベルで定義され、推論時に解決される重み付き最小二乗問題に対する解であり、グローバルおよび局所的な画像特性を捉えることができる。
埋め込み空間における距離は、LASI: Linear Autoregressive similarity Indexと呼ばれる知覚的類似度計量を定義するために用いられる。
フルリファレンス画像品質評価データセットの実験では、LPIPS (Zhang et al., 2018) や PIM (Bhardwaj et al., 2020) といった学習深い特徴ベースの手法と、MS-SSIM (Wang et al., 2003) のような手作りの手法と同じような計算コストで競合することを示した。
組込み空間の次元性の向上は、計算複雑性を増大させるコストで、知覚タスクの性能を高めながら、WLS損失を一貫して減少させることがわかった。
lasiは完全に微分可能で、埋め込み次元の数で立方的にスケールし、ピクセルレベルで並列化することができる。
LASI と LPIPS の最大微分 (MAD) 競合 (Wang & Simoncelli, 2008) は、両方の手法が他方の障害点を見つけることができることを示している。
関連論文リスト
- SimO Loss: Anchor-Free Contrastive Loss for Fine-Grained Supervised Contrastive Learning [0.0]
提案した類似性-直交性(SimO)損失を利用したアンカーフリーコントラスト学習(L)手法を提案する。
提案手法は,2つの主目的を同時に最適化するセミメトリック判別損失関数を最小化する。
埋め込み空間におけるSimO損失の影響を可視化する。
論文 参考訳(メタデータ) (2024-10-07T17:41:10Z) - Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors [52.195637608631955]
非視線画像(NLOS)は、その潜在的な応用により注目されている。
既存のNLOS再構成アプローチは、経験的物理的前提に依存して制約される。
本稿では,Learningable Path Compensation(LPC)とAdaptive Phasor Field(APF)の2つの主要な設計を含む,学習に基づく新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-21T04:39:45Z) - Efficient Learnable Collaborative Attention for Single Image Super-Resolution [18.955369476815136]
非局所注意(NLA)は、深部画像超解像(SR)における長距離特徴相関を捉える強力な手法である
本稿では,非局所的モデリングに帰納バイアスを導入する新しい学習可能協調意識(LCoA)を提案する。
我々のLCoAは、推論段階での非局所モデリング時間を約83%削減できる。
論文 参考訳(メタデータ) (2024-04-07T11:25:04Z) - Towards Better Gradient Consistency for Neural Signed Distance Functions
via Level Set Alignment [50.892158511845466]
レベルセットの並列性によって示される場の勾配一貫性が、推論精度に影響を及ぼす重要な要因であることを示す。
そこで本研究では,次数集合の並列性を評価するためのレベルセットアライメント損失を提案する。
論文 参考訳(メタデータ) (2023-05-19T11:28:05Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Transductive Few-Shot Classification on the Oblique Manifold [5.115651633703363]
限られたデータで学習しようとする学習は少ない。
本研究では,ユークリッド空間における特徴抽出を行う。
また,空間ピラミッドプールを用いた非パラメトリック領域自己アテンションを提案する。
論文 参考訳(メタデータ) (2021-08-09T13:01:03Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Leveraging Spatial and Photometric Context for Calibrated Non-Lambertian
Photometric Stereo [61.6260594326246]
空間と測光の両方を同時に活用できる効率的な完全畳み込みアーキテクチャを提案する。
分離可能な4D畳み込みと2D熱マップを使うことで、サイズが小さくなり、効率が向上する。
論文 参考訳(メタデータ) (2021-03-22T18:06:58Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Deep Probabilistic Feature-metric Tracking [27.137827823264942]
画素単位の深度特徴写像と深度特徴量不確実性写像を学習するための新しいフレームワークを提案する。
CNNは、より高速で信頼性の高い収束のための深い初期ポーズを予測する。
実験により,TUM RGB-Dデータセットと3次元剛性物体追跡データセットの最先端性能が示された。
論文 参考訳(メタデータ) (2020-08-31T11:47:59Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。