論文の概要: What makes domain generalization hard?
- arxiv url: http://arxiv.org/abs/2206.07802v1
- Date: Wed, 15 Jun 2022 20:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 18:01:18.171748
- Title: What makes domain generalization hard?
- Title(参考訳): ドメインの一般化が難しい理由
- Authors: Spandan Madan, Li You, Mengmi Zhang, Hanspeter Pfister, Gabriel
Kreiman
- Abstract要約: 我々は、人気のある3D ScanNetデータセットと同じ幾何学、シーンレイアウト、カメラパラメータを持つ15のフォトリアリスティックドメインのベンチマークを示す。
それぞれの意味的シフトが一般化に与える影響を独立に検討する。
我々のアプローチ(CDCNet)は、既存の領域一般化手法を18%以上のマージンで上回ります。
- 参考スコア(独自算出の注目度): 28.466633165269442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While several methodologies have been proposed for the daunting task of
domain generalization, understanding what makes this task challenging has
received little attention. Here we present SemanticDG (Semantic Domain
Generalization): a benchmark with 15 photo-realistic domains with the same
geometry, scene layout and camera parameters as the popular 3D ScanNet dataset,
but with controlled domain shifts in lighting, materials, and viewpoints. Using
this benchmark, we investigate the impact of each of these semantic shifts on
generalization independently. Visual recognition models easily generalize to
novel lighting, but struggle with distribution shifts in materials and
viewpoints. Inspired by human vision, we hypothesize that scene context can
serve as a bridge to help models generalize across material and viewpoint
domain shifts and propose a context-aware vision transformer along with a
contrastive loss over material and viewpoint changes to address these domain
shifts. Our approach (dubbed as CDCNet) outperforms existing domain
generalization methods by over an 18% margin. As a critical benchmark, we also
conduct psychophysics experiments and find that humans generalize equally well
across lighting, materials and viewpoints. The benchmark and computational
model introduced here help understand the challenges associated with
generalization across domains and provide initial steps towards extrapolation
to semantic distribution shifts. We include all data and source code in the
supplement.
- Abstract(参考訳): ドメイン一般化の難題に対していくつかの方法論が提案されているが、この課題に挑戦する要因を理解することはほとんど注目されていない。
ここではsemanticdg (semantic domain generalization): 一般的な3d scannetデータセットと同じ形状、シーンレイアウト、カメラパラメータを持つ15のフォトリアリスティックなドメインで、照明、材料、視点において制御されたドメインシフトを持つベンチマークを示す。
このベンチマークを用いて,各意味変化が一般化に与える影響を独立して検討する。
視覚認識モデルは、新しい照明に容易に一般化するが、材料や視点の分布シフトに苦しむ。
ヒューマンビジョンに触発されて、シーンコンテキストは、モデルが素材と視点をまたがるドメインシフトを一般化するのに役立つブリッジとして機能し、コンテキスト認識型ビジョントランスフォーマーを提案し、これらのドメインシフトに対処するために、マテリアルとビューポイントの変更に対する対照的な損失をもたらすと仮定する。
我々のアプローチ(CDCNet)は、既存の領域一般化手法を18%以上のマージンで上回ります。
批判的なベンチマークとして、精神物理学の実験を行い、照明、材料、視点をまたいで人間が等しく一般化できることを見出した。
ここで導入されたベンチマークと計算モデルは、ドメイン間の一般化に関連する課題を理解し、セマンティックな分布シフトに対する外挿への最初のステップを提供する。
すべてのデータとソースコードをサプリメントに含んでいます。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文 参考訳(メタデータ) (2023-10-31T18:01:11Z) - Extreme Image Transformations Affect Humans and Machines Differently [0.0]
最近の人工ニューラルネットワーク(ANN)では、霊長類ニューラルネットと人間のパフォーマンスデータの側面をモデル化している。
神経生理学的な知見にインスパイアされた新しい画像変換のセットを導入し、物体認識タスクにおいて人間とANNを評価する。
機械は、特定の変換のために人間よりも優れた性能を示し、人間にとって容易な他者と同等の性能を発揮するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:12:53Z) - Human alignment of neural network representations [22.671101285994013]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。
食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文 参考訳(メタデータ) (2022-11-02T15:23:16Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - Style and Pose Control for Image Synthesis of Humans from a Single
Monocular View [78.6284090004218]
StylePoseGANは、ポーズと外観のコンディショニングを別々に受け入れる非制御発電機です。
我々のネットワークは、人間のイメージで完全に教師された方法で訓練され、ポーズ、外観、体の部分を切り離すことができる。
StylePoseGANは、一般的な知覚メトリクスで最新の画像生成忠実度を実現します。
論文 参考訳(メタデータ) (2021-02-22T18:50:47Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。