論文の概要: Disentangle Perceptual Learning through Online Contrastive Learning
- arxiv url: http://arxiv.org/abs/2006.13511v1
- Date: Wed, 24 Jun 2020 06:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 12:49:45.376082
- Title: Disentangle Perceptual Learning through Online Contrastive Learning
- Title(参考訳): オンラインコントラスト学習による対角学習
- Authors: Kangfu Mei, Yao Lu, Qiaosi Yi, Haoyu Wu, Juncheng Li, Rui Huang
- Abstract要約: 人間の視覚的知覚による現実的な結果の獲得は、画像変換タスクにおける中心的な関心事である。
本稿では,事前学習した分類ネットワークの特徴表現の中で,人間の視覚知覚に限定した次元しか関連していないことを論じる。
このような仮定の下で,提案したオンラインコントラスト学習を通じて,認識関連次元を表現から切り離そうとする。
- 参考スコア(独自算出の注目度): 16.534353501066203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pursuing realistic results according to human visual perception is the
central concern in the image transformation tasks. Perceptual learning
approaches like perceptual loss are empirically powerful for such tasks but
they usually rely on the pre-trained classification network to provide
features, which are not necessarily optimal in terms of visual perception of
image transformation. In this paper, we argue that, among the features
representation from the pre-trained classification network, only limited
dimensions are related to human visual perception, while others are irrelevant,
although both will affect the final image transformation results. Under such an
assumption, we try to disentangle the perception-relevant dimensions from the
representation through our proposed online contrastive learning. The resulted
network includes the pre-training part and a feature selection layer, followed
by the contrastive learning module, which utilizes the transformed results,
target images, and task-oriented distorted images as the positive, negative,
and anchor samples, respectively. The contrastive learning aims at activating
the perception-relevant dimensions and suppressing the irrelevant ones by using
the triplet loss, so that the original representation can be disentangled for
better perceptual quality. Experiments on various image transformation tasks
demonstrate the superiority of our framework, in terms of human visual
perception, to the existing approaches using pre-trained networks and
empirically designed losses.
- Abstract(参考訳): 人間の視覚的知覚による現実的な結果の獲得は、画像変換タスクにおける中心的な関心事である。
知覚喪失のような知覚学習アプローチは、そのようなタスクには経験的に強力であるが、通常は事前訓練された分類ネットワークに依存して、画像変換の視覚知覚では必ずしも最適ではない特徴を提供する。
本稿では,事前学習した分類ネットワークの特徴表現のうち,人間の視覚知覚に限られた次元しか関連しないのに対して,他は無関係であり,両者は最終的な画像変換結果に影響を与えると論じる。
このような仮定の下で,提案したオンラインコントラスト学習を通じて,認識関連次元を表現から切り離そうとする。
得られたネットワークは、事前学習部と特徴選択層と、変換結果と対象画像とタスク指向歪画像とをそれぞれ正、負、アンカーサンプルとして利用するコントラスト学習モジュールとを含む。
コントラスト学習は、三重項損失を用いて知覚関連次元を活性化し、無関係次元を抑制することを目的としており、元の表現をより良い知覚品質のために分離することができる。
様々な画像変換タスクの実験は、人間の視覚的知覚の観点から、事前学習されたネットワークと経験的に設計された損失を用いた既存のアプローチに対する我々のフレームワークの優位性を実証している。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Semiotics Networks Representing Perceptual Inference [0.0]
本稿では,物体の知覚を追跡・シミュレートする計算モデルを提案する。
我々のモデルは人間に限らず、「内部」表現から「外部」表現への処理を含むループを含むシステムに適用することができる。
論文 参考訳(メタデータ) (2023-10-08T16:05:17Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Adversarially robust segmentation models learn perceptually-aligned
gradients [0.0]
逆学習されたセマンティックセグメンテーションネットワークを用いて画像のインペイントと生成を行うことができることを示す。
知覚的に整合した勾配は、ニューラルネットワークの学習された表現をよりよく理解し、ニューラルネットワークをより解釈しやすいものにする助けとなる、と我々は主張する。
論文 参考訳(メタデータ) (2022-04-03T16:04:52Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Unsupervised Deep Metric Learning with Transformed Attention Consistency
and Contrastive Clustering Loss [28.17607283348278]
教師なしのメートル法学習のための既存のアプローチは、入力画像自体の自己超越情報を探索することに焦点を当てている。
我々は、画像を分析する際、人間の目は個々の画像を調べるのではなく、互いに画像を比較することが多いことを観察した。
本研究では,画像間の自己超越情報に基づいてネットワークを学習する,教師なし深度学習のための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-08-10T19:33:47Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z) - Disentangling Image Distortions in Deep Feature Space [20.220653544354285]
我々は、深い視覚表現の能力を分析し、異なる種類の画像歪みを本質的に特徴付けることによって、知覚的類似性に対するより広い理解の方向への一歩を踏み出す。
与えられた層から抽出された特徴の次元還元表現により、特徴空間内の歪みのタイプを効率的に分離することができる。
各ネットワーク層は、異なるタイプの歪みを分離する異なる能力を示し、ネットワークアーキテクチャによってその能力は異なる。
論文 参考訳(メタデータ) (2020-02-26T11:02:13Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。