論文の概要: Improving generalization by mimicking the human visual diet
- arxiv url: http://arxiv.org/abs/2206.07802v2
- Date: Wed, 10 Jan 2024 15:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 18:16:02.244220
- Title: Improving generalization by mimicking the human visual diet
- Title(参考訳): ヒトの視覚ダイエットの模倣による一般化の促進
- Authors: Spandan Madan, You Li, Mengmi Zhang, Hanspeter Pfister, Gabriel
Kreiman
- Abstract要約: 本稿では,生物学的ビジョンとコンピュータビジョンの一般化ギャップを埋める新たな視点を提案する。
その結果、人間の視覚訓練データ(視覚ダイエット)に変化と文脈的手がかりをユビキタスに組み込むことで、現実の変換への一般化が著しく向上することが示された。
- 参考スコア(独自算出の注目度): 34.32585612888424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new perspective on bridging the generalization gap between
biological and computer vision -- mimicking the human visual diet. While
computer vision models rely on internet-scraped datasets, humans learn from
limited 3D scenes under diverse real-world transformations with objects in
natural context. Our results demonstrate that incorporating variations and
contextual cues ubiquitous in the human visual training data (visual diet)
significantly improves generalization to real-world transformations such as
lighting, viewpoint, and material changes. This improvement also extends to
generalizing from synthetic to real-world data -- all models trained with a
human-like visual diet outperform specialized architectures by large margins
when tested on natural image data. These experiments are enabled by our two key
contributions: a novel dataset capturing scene context and diverse real-world
transformations to mimic the human visual diet, and a transformer model
tailored to leverage these aspects of the human visual diet. All data and
source code can be accessed at
https://github.com/Spandan-Madan/human_visual_diet.
- Abstract(参考訳): 我々は,人間の視覚的食生活を模倣する,生物学的ビジョンとコンピュータビジョンの一般化ギャップを埋める新たな視点を提示する。
コンピュータビジョンモデルはインターネットに縛られたデータセットに依存しているが、人間は自然の文脈でオブジェクトを持つさまざまな現実世界の変換の下で、限られた3Dシーンから学習する。
本研究では,人間の視覚訓練データ(視覚ダイエット)にユビキタスな変化や文脈的手がかりを取り入れることで,照明や視点,物質的変化といった現実世界の変革への一般化が著しく向上することを示す。
人間のようなビジュアルダイエットで訓練されたすべてのモデルは、自然な画像データでテストした場合、特定のアーキテクチャよりも大きなマージンでパフォーマンスを向上します。
シーンコンテキストをキャプチャする新しいデータセットと、人間の視覚ダイエットを模倣する多様な現実世界のトランスフォーメーションと、人間の視覚ダイエットのこれらの側面を活用するために調整されたトランスフォーメーションモデルです。
すべてのデータとソースコードはhttps://github.com/spandan-madan/human_visual_dietでアクセスできる。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文 参考訳(メタデータ) (2023-10-31T18:01:11Z) - Extreme Image Transformations Affect Humans and Machines Differently [0.0]
最近の人工ニューラルネットワーク(ANN)では、霊長類ニューラルネットと人間のパフォーマンスデータの側面をモデル化している。
神経生理学的な知見にインスパイアされた新しい画像変換のセットを導入し、物体認識タスクにおいて人間とANNを評価する。
機械は、特定の変換のために人間よりも優れた性能を示し、人間にとって容易な他者と同等の性能を発揮するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:12:53Z) - Human alignment of neural network representations [22.671101285994013]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。
食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文 参考訳(メタデータ) (2022-11-02T15:23:16Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - Style and Pose Control for Image Synthesis of Humans from a Single
Monocular View [78.6284090004218]
StylePoseGANは、ポーズと外観のコンディショニングを別々に受け入れる非制御発電機です。
我々のネットワークは、人間のイメージで完全に教師された方法で訓練され、ポーズ、外観、体の部分を切り離すことができる。
StylePoseGANは、一般的な知覚メトリクスで最新の画像生成忠実度を実現します。
論文 参考訳(メタデータ) (2021-02-22T18:50:47Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。