論文の概要: Physically Disentangled Representations
- arxiv url: http://arxiv.org/abs/2204.05281v1
- Date: Mon, 11 Apr 2022 17:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 17:11:31.463437
- Title: Physically Disentangled Representations
- Title(参考訳): 物理的に絡み合った表現
- Authors: Tzofi Klinghoffer, Kushagra Tiwary, Arkadiusz Balata, Vivek Sharma,
Ramesh Raskar
- Abstract要約: 逆レンダリングは、監督なしで、物理的に歪んだシーンの表現を学ぶために使用することができる。
本稿では,下流クラスタリング,線形分類,セグメンテーションタスクの精度を向上させる学習表現における逆レンダリングの有用性を示す。
- 参考スコア(独自算出の注目度): 13.234029150635658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art methods in generative representation learning yield semantic
disentanglement, but typically do not consider physical scene parameters, such
as geometry, albedo, lighting, or camera. We posit that inverse rendering, a
way to reverse the rendering process to recover scene parameters from an image,
can also be used to learn physically disentangled representations of scenes
without supervision. In this paper, we show the utility of inverse rendering in
learning representations that yield improved accuracy on downstream clustering,
linear classification, and segmentation tasks with the help of our novel
Leave-One-Out, Cycle Contrastive loss (LOOCC), which improves disentanglement
of scene parameters and robustness to out-of-distribution lighting and
viewpoints. We perform a comparison of our method with other generative
representation learning methods across a variety of downstream tasks, including
face attribute classification, emotion recognition, identification, face
segmentation, and car classification. Our physically disentangled
representations yield higher accuracy than semantically disentangled
alternatives across all tasks and by as much as 18%. We hope that this work
will motivate future research in applying advances in inverse rendering and 3D
understanding to representation learning.
- Abstract(参考訳): 生成表現学習における最先端の手法は意味的不絡み合いをもたらすが、一般的には幾何学、アルベド、照明、カメラなどの物理的なシーンパラメータを考慮しない。
画像からシーンパラメータを復元するレンダリングプロセスをリバースする方法である逆レンダリングは、監督なしでシーンの物理的に不連続な表現を学習するためにも使用できると仮定する。
本稿では, 下流クラスタリング, 線形分類, セグメンテーションタスクの精度向上に寄与する学習表現における逆レンダリングの有用性を, シーンパラメータのゆがみと, アウト・オブ・ディストリビューション・ライティングや視点へのロバスト性を改善する, 新たなLeave-One-Out, Cycle Contrastive Los (LOOCC) の助けを借りて示す。
我々は,顔属性分類,感情認識,識別,顔セグメント化,車種分類など,さまざまな下流タスクを対象とした他の生成表現学習手法との比較を行った。
物理的に切り離された表現は、すべてのタスクと最大18%の精度で意味的に切り離された代替手段よりも高い精度が得られる。
本研究は,逆レンダリングの進歩と3次元理解を表現学習に適用する上で,今後の研究の動機となることを期待する。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - 3D Facial Expressions through Analysis-by-Neural-Synthesis [30.2749903946587]
SMIRK(Spatial Modeling for Image-based Reconstruction of Kinesics)は、画像から表現力のある3次元顔を忠実に再構築する。
既存の手法では,自己指導型トレーニングの定式化における欠点と,訓練画像における表現の多様性の欠如の2つの重要な限界を識別する。
我々の質的,定量的,特に知覚的評価は、SMIRKが正確な表現再構成における新しい最先端技術を実現することを証明している。
論文 参考訳(メタデータ) (2024-04-05T14:00:07Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。