論文の概要: Discriminating image representations with principal distortions
- arxiv url: http://arxiv.org/abs/2410.15433v1
- Date: Sun, 20 Oct 2024 16:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:55.392159
- Title: Discriminating image representations with principal distortions
- Title(参考訳): 主歪みによる画像表現の識別
- Authors: Jenelle Feather, David Lipshutz, Sarah E. Harvey, Alex H. Williams, Eero P. Simoncelli,
- Abstract要約: 本稿では,画像表現の集合を局所的な幾何学的に比較する枠組みを提案する。
このフレームワークを使って、初期の視覚システムの単純なモデルを比較します。
2つ目の例では、この手法を深層ニューラルネットワークモデルに適用し、アーキテクチャやトレーニングタイプに起因する局所的な幾何学の違いを明らかにする。
- 参考スコア(独自算出の注目度): 13.823252055829661
- License:
- Abstract: Image representations (artificial or biological) are often compared in terms of their global geometry; however, representations with similar global structure can have strikingly different local geometries. Here, we propose a framework for comparing a set of image representations in terms of their local geometries. We quantify the local geometry of a representation using the Fisher information matrix, a standard statistical tool for characterizing the sensitivity to local stimulus distortions, and use this as a substrate for a metric on the local geometry in the vicinity of a base image. This metric may then be used to optimally differentiate a set of models, by finding a pair of "principal distortions" that maximize the variance of the models under this metric. We use this framework to compare a set of simple models of the early visual system, identifying a novel set of image distortions that allow immediate comparison of the models by visual inspection. In a second example, we apply our method to a set of deep neural network models and reveal differences in the local geometry that arise due to architecture and training types. These examples highlight how our framework can be used to probe for informative differences in local sensitivities between complex computational models, and suggest how it could be used to compare model representations with human perception.
- Abstract(参考訳): 画像表現(人工的または生物学的)は、その大域的幾何学の観点で比較されることが多いが、同様の大域的構造を持つ表現は、著しく異なる局所的幾何学を持つことがある。
本稿では,画像表現の集合を局所的な幾何学的に比較する枠組みを提案する。
本稿では、局所的な刺激歪みに対する感度を特徴付ける標準的な統計ツールであるフィッシャー情報行列を用いて、表現の局所幾何学を定量化し、これをベース画像近傍の局所幾何学の指標として用いる。
この計量は、この計量の下でモデルの分散を最大化する「主歪み」の対を見つけることによって、モデルの集合を最適に区別するために用いられる。
このフレームワークを用いて、初期視覚システムの一連の単純なモデルを比較し、視覚検査によりモデルの即時比較を可能にする新しい画像歪みのセットを特定する。
2つ目の例では、この手法を深層ニューラルネットワークモデルに適用し、アーキテクチャやトレーニングタイプに起因する局所的な幾何学の違いを明らかにする。
これらの例は、複雑な計算モデル間の局所的な感性の違いを探索するために我々のフレームワークをどのように利用できるかを示し、モデル表現と人間の知覚を比較するためにどのように使用できるかを提案する。
関連論文リスト
- Intriguing Differences Between Zero-Shot and Systematic Evaluations of
Vision-Language Transformer Models [7.360937524701675]
トランスフォーマーベースのモデルは、ベンチマークデータセットにおける優れた(ゼロショット)パフォーマンスのために、ここ数年で自然言語処理やその他の領域を支配してきた。
本稿では,新しい勾配勾配勾配最適化法に基づいて,一般的に使用される視覚言語モデルの埋め込み空間を探索する。
Imagenetteデータセットを用いて、モデルが99%以上のゼロショット分類性能を達成する一方で、体系的な評価を完全に失敗することを示した。
論文 参考訳(メタデータ) (2024-02-13T14:07:49Z) - Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [50.62725807357586]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。
本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T13:06:48Z) - Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。
提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。
本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文 参考訳(メタデータ) (2023-05-09T02:01:07Z) - Improving Shape Awareness and Interpretability in Deep Networks Using
Geometric Moments [0.0]
画像分類のためのディープネットワークは、しばしばオブジェクトの形状よりもテクスチャ情報に依存している。
本稿では,幾何学的モーメントにインスパイアされたディープラーニングモデルを提案する。
標準画像分類データセットにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-05-24T02:08:05Z) - An application of a pseudo-parabolic modeling to texture image
recognition [0.0]
偏微分方程式モデルを用いたテクスチャ画像認識のための新しい手法を提案する。
擬似パラボリックなBuckley-Leverett方程式を用いて、デジタル画像表現のダイナミクスを提供し、時間とともに進化するそれらの画像から局所的な記述子を収集する。
論文 参考訳(メタデータ) (2021-02-09T18:08:42Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - Reorganizing local image features with chaotic maps: an application to
texture recognition [0.0]
テクスチャ認識のためのカオスベースの局所記述子を提案する。
画像を3次元ユークリッド空間にマッピングし、この3次元構造上のカオス写像を反復し、元の像に戻す。
本手法の有効性をベンチマークデータベースの分類と,葉面のテクスチャに基づくブラジルの植物種の同定で検証した。
論文 参考訳(メタデータ) (2020-07-15T03:15:01Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - Multi-View Optimization of Local Feature Geometry [70.18863787469805]
本研究では,複数視点からの局所像の特徴の幾何を,未知のシーンやカメラの幾何を伴わずに精査する問題に対処する。
提案手法は,従来の特徴抽出とマッチングのパラダイムを自然に補完する。
本手法は,手作りと学習の両方の局所的特徴に対して,三角測量とカメラのローカライゼーション性能を常に向上することを示す。
論文 参考訳(メタデータ) (2020-03-18T17:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。