論文の概要: The Intrinsic Dimension of Images and Its Impact on Learning
- arxiv url: http://arxiv.org/abs/2104.08894v1
- Date: Sun, 18 Apr 2021 16:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 08:51:43.434530
- Title: The Intrinsic Dimension of Images and Its Impact on Learning
- Title(参考訳): 画像の固有次元とその学習への影響
- Authors: Phillip Pope, Chen Zhu, Ahmed Abdelkader, Micah Goldblum, Tom
Goldstein
- Abstract要約: 自然画像データは従来の画素表現の高次元にもかかわらず低次元構造を示すと広く信じられている。
本研究では,一般的なデータセットに次元推定ツールを適用し,深層学習における低次元構造の役割を検討する。
- 参考スコア(独自算出の注目度): 60.811039723427676
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: It is widely believed that natural image data exhibits low-dimensional
structure despite the high dimensionality of conventional pixel
representations. This idea underlies a common intuition for the remarkable
success of deep learning in computer vision. In this work, we apply dimension
estimation tools to popular datasets and investigate the role of
low-dimensional structure in deep learning. We find that common natural image
datasets indeed have very low intrinsic dimension relative to the high number
of pixels in the images. Additionally, we find that low dimensional datasets
are easier for neural networks to learn, and models solving these tasks
generalize better from training to test data. Along the way, we develop a
technique for validating our dimension estimation tools on synthetic data
generated by GANs allowing us to actively manipulate the intrinsic dimension by
controlling the image generation process. Code for our experiments may be found
here https://github.com/ppope/dimensions.
- Abstract(参考訳): 自然画像データは従来の画素表現の高次元にもかかわらず低次元構造を示すと広く信じられている。
このアイデアは、コンピュータビジョンにおけるディープラーニングの成功に対する共通の直感の根底にある。
本研究では,一般的なデータセットに次元推定ツールを適用し,ディープラーニングにおける低次元構造の役割を検討する。
一般的な自然画像データセットは、画像中のピクセル数に比べて非常に低い固有次元を持つことが分かりました。
さらに、低次元データセットはニューラルネットワークが学習しやすく、これらのタスクを解くモデルは、トレーニングからテストデータまで、より一般化されている。
その過程で,GANが生成した合成データに対して,画像生成過程を制御して本質的な次元を積極的に操作できる次元推定ツールの検証手法を開発した。
実験のコードはhttps://github.com/ppope/dimensions.com/で確認できます。
関連論文リスト
- GRIN: Zero-Shot Metric Depth with Pixel-Level Diffusion [27.35300492569507]
本稿では,非構造化トレーニングデータを取り込むための効率的な拡散モデルGRINを提案する。
GRINは,ゼロショット距離単眼深度推定において,スクラッチからトレーニングした場合でも,新たな技術の確立を図っている。
論文 参考訳(メタデータ) (2024-09-15T23:32:04Z) - Deep Image Composition Meets Image Forgery [0.0]
画像偽造は長年研究されてきた。
ディープラーニングモデルは、トレーニングのために大量のラベル付きデータを必要とする。
本研究では,画像合成深層学習モデルを用いて,実生活における操作の質に近いスプライシング画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T17:54:37Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。
画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。
幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文 参考訳(メタデータ) (2022-10-25T01:55:17Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Homography augumented momentum constrastive learning for SAR image
retrieval [3.9743795764085545]
本稿では, ホログラフィ変換を用いた画像検索手法を提案する。
また,ラベル付け手順を必要としないコントラスト学習によって誘導されるDNNのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-21T17:27:07Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D
Shapes [77.6741486264257]
本稿では,高忠実度ニューラルネットワークSDFのリアルタイムレンダリングを可能にする,効率的なニューラル表現を提案する。
我々の表現は、以前の作品に比べてレンダリング速度の点で2~3桁の効率であることを示す。
論文 参考訳(メタデータ) (2021-01-26T18:50:22Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。