Fugu-MT 論文翻訳(概要): The Unreasonable Effectiveness of Linear Prediction as a Perceptual Metric

論文の概要: The Unreasonable Effectiveness of Linear Prediction as a Perceptual Metric

arxiv url: http://arxiv.org/abs/2310.05986v1
Date: Fri, 6 Oct 2023 19:02:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 04:31:20.448672
Title: The Unreasonable Effectiveness of Linear Prediction as a Perceptual Metric
Title（参考訳）: 知覚的指標としての線形予測の不合理性
Authors: Daniel Severo, Lucas Theis, Johannes Ball\'e
Abstract要約: 我々は、トレーニングデータやディープニューラルネットワーク機能なしで、視覚系の知覚的な埋め込みが、どのようにして推論時に構築できるかを示す。我々の知覚埋め込みは、ピクセルレベルで定義された重み付き最小二乗問題(WLS)の解であり、推論時に解かれる。
参考スコア（独自算出の注目度）: 6.1693649058046764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We show how perceptual embeddings of the visual system can be constructed at inference-time with no training data or deep neural network features. Our perceptual embeddings are solutions to a weighted least squares (WLS) problem, defined at the pixel-level, and solved at inference-time, that can capture global and local image characteristics. The distance in embedding space is used to define a perceptual similarity metric which we call LASI: Linear Autoregressive Similarity Index. Experiments on full-reference image quality assessment datasets show LASI performs competitively with learned deep feature based methods like LPIPS (Zhang et al., 2018) and PIM (Bhardwaj et al., 2020), at a similar computational cost to hand-crafted methods such as MS-SSIM (Wang et al., 2003). We found that increasing the dimensionality of the embedding space consistently reduces the WLS loss while increasing performance on perceptual tasks, at the cost of increasing the computational complexity. LASI is fully differentiable, scales cubically with the number of embedding dimensions, and can be parallelized at the pixel-level. A Maximum Differentiation (MAD) competition (Wang & Simoncelli, 2008) between LASI and LPIPS shows that both methods are capable of finding failure points for the other, suggesting these metrics can be combined.
Abstract（参考訳）: 学習データやディープニューラルネットワーク機能なしで、視覚システムの知覚的埋め込みが推論時にどのように構築されるかを示す。我々の知覚埋め込みは、画素レベルで定義され、推論時に解決される重み付き最小二乗問題に対する解であり、グローバルおよび局所的な画像特性を捉えることができる。埋め込み空間における距離は、LASI: Linear Autoregressive similarity Indexと呼ばれる知覚的類似度計量を定義するために用いられる。フルリファレンス画像品質評価データセットの実験では、LPIPS (Zhang et al., 2018) や PIM (Bhardwaj et al., 2020) といった学習深い特徴ベースの手法と、MS-SSIM (Wang et al., 2003) のような手作りの手法と同じような計算コストで競合することを示した。組込み空間の次元性の向上は、計算複雑性を増大させるコストで、知覚タスクの性能を高めながら、WLS損失を一貫して減少させることがわかった。 lasiは完全に微分可能で、埋め込み次元の数で立方的にスケールし、ピクセルレベルで並列化することができる。 LASI と LPIPS の最大微分 (MAD) 競合 (Wang & Simoncelli, 2008) は、両方の手法が他方の障害点を見つけることができることを示している。

関連論文リスト

Structured Uncertainty Similarity Score (SUSS): Learning a Probabilistic, Interpretable, Perceptual Metric Between Images [3.1296300934639327]
人間の視覚と一致した知覚的類似度スコアは、コンピュータビジョンモデルのトレーニングと評価の両方に不可欠である。 SUSS (Structured Uncertainity similarity Score) を導入し、知覚コンポーネントの集合を通して各イメージをモデル化する。最終的なスコアは、人間の知覚データセットから学んだ重み付きコンポーネントログ確率の重み付き総和である。
論文参考訳（メタデータ） (2025-12-03T11:48:59Z)
IM-LUT: Interpolation Mixing Look-Up Tables for Image Super-Resolution [21.982964666527646]
ルックアップテーブル(LUT)ベースのアプローチは、その効率と性能から関心を集めている。既存のAISR技術は暗黙の神経表現を用いており、計算コストとメモリ要求がかなり高い。本稿では,ASISR を動作させる新しいフレームワークである Interpolation Mixing LUT (IM-LUT) を提案する。
論文参考訳（メタデータ） (2025-07-14T05:02:57Z)
NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-06-11T06:59:17Z)
Uncertainty-aware retinal layer segmentation in OCT through probabilistic signed distance functions [6.765624289092461]
オプティカルコヒーレンス・トモグラフィー(OCT)スキャンにおける不確実性認識網膜層セグメンテーションの新しいアプローチを提案する。本手法は、レベルセットを介して網膜層形状を効果的にパラメータ化する符号付き距離関数(SDF)を予測することにより、セグメンテーションを洗練する。これにより、あいまいな入力、撮像ノイズ、信頼できないセグメンテーションが存在する場合でも、網膜層の堅牢な表現が保証される。
論文参考訳（メタデータ） (2024-12-06T10:44:11Z)
SimO Loss: Anchor-Free Contrastive Loss for Fine-Grained Supervised Contrastive Learning [0.0]
提案した類似性-直交性(SimO)損失を利用したアンカーフリーコントラスト学習(L)手法を提案する。提案手法は,2つの主目的を同時に最適化するセミメトリック判別損失関数を最小化する。埋め込み空間におけるSimO損失の影響を可視化する。
論文参考訳（メタデータ） (2024-10-07T17:41:10Z)
Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors [52.195637608631955]
非視線画像(NLOS)は、その潜在的な応用により注目されている。既存のNLOS再構成アプローチは、経験的物理的前提に依存して制約される。本稿では,Learningable Path Compensation(LPC)とAdaptive Phasor Field(APF)の2つの主要な設計を含む,学習に基づく新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-09-21T04:39:45Z)
Efficient Learnable Collaborative Attention for Single Image Super-Resolution [18.955369476815136]
非局所注意(NLA)は、深部画像超解像(SR)における長距離特徴相関を捉える強力な手法である本稿では,非局所的モデリングに帰納バイアスを導入する新しい学習可能協調意識(LCoA)を提案する。我々のLCoAは、推論段階での非局所モデリング時間を約83%削減できる。
論文参考訳（メタデータ） (2024-04-07T11:25:04Z)
Towards Better Gradient Consistency for Neural Signed Distance Functions via Level Set Alignment [50.892158511845466]
レベルセットの並列性によって示される場の勾配一貫性が、推論精度に影響を及ぼす重要な要因であることを示す。そこで本研究では,次数集合の並列性を評価するためのレベルセットアライメント損失を提案する。
論文参考訳（メタデータ） (2023-05-19T11:28:05Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Transductive Few-Shot Classification on the Oblique Manifold [5.115651633703363]
限られたデータで学習しようとする学習は少ない。本研究では,ユークリッド空間における特徴抽出を行う。また,空間ピラミッドプールを用いた非パラメトリック領域自己アテンションを提案する。
論文参考訳（メタデータ） (2021-08-09T13:01:03Z)
Hierarchical Deep CNN Feature Set-Based Representation Learning for Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文参考訳（メタデータ） (2021-03-25T14:03:42Z)
Leveraging Spatial and Photometric Context for Calibrated Non-Lambertian Photometric Stereo [61.6260594326246]
空間と測光の両方を同時に活用できる効率的な完全畳み込みアーキテクチャを提案する。分離可能な4D畳み込みと2D熱マップを使うことで、サイズが小さくなり、効率が向上する。
論文参考訳（メタデータ） (2021-03-22T18:06:58Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)
Deep Probabilistic Feature-metric Tracking [27.137827823264942]
画素単位の深度特徴写像と深度特徴量不確実性写像を学習するための新しいフレームワークを提案する。 CNNは、より高速で信頼性の高い収束のための深い初期ポーズを予測する。実験により,TUM RGB-Dデータセットと3次元剛性物体追跡データセットの最先端性能が示された。
論文参考訳（メタデータ） (2020-08-31T11:47:59Z)
Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。 LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文参考訳（メタデータ） (2020-04-06T11:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。