論文の概要: Learning Signal-Agnostic Manifolds of Neural Fields
- arxiv url: http://arxiv.org/abs/2111.06387v1
- Date: Thu, 11 Nov 2021 18:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 13:26:51.883429
- Title: Learning Signal-Agnostic Manifolds of Neural Fields
- Title(参考訳): ニューラルネットワークの学習信号非依存多様体
- Authors: Yilun Du, Katherine M. Collins, Joshua B. Tenenbaum, Vincent Sitzmann
- Abstract要約: ニューラルネットワークを利用して、画像、形状、オーディオ、およびモーダル・オーディオヴィジュアル領域の基盤となる構造を捉える。
GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成できることが示される。
- 参考スコア(独自算出の注目度): 50.066449953522685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have been used widely to learn the latent structure of
datasets, across modalities such as images, shapes, and audio signals. However,
existing models are generally modality-dependent, requiring custom
architectures and objectives to process different classes of signals. We
leverage neural fields to capture the underlying structure in image, shape,
audio and cross-modal audiovisual domains in a modality-independent manner. We
cast our task as one of learning a manifold, where we aim to infer a
low-dimensional, locally linear subspace in which our data resides. By
enforcing coverage of the manifold, local linearity, and local isometry, our
model -- dubbed GEM -- learns to capture the underlying structure of datasets
across modalities. We can then travel along linear regions of our manifold to
obtain perceptually consistent interpolations between samples, and can further
use GEM to recover points on our manifold and glean not only diverse
completions of input images, but cross-modal hallucinations of audio or image
signals. Finally, we show that by walking across the underlying manifold of
GEM, we may generate new samples in our signal domains. Code and additional
results are available at https://yilundu.github.io/gem/.
- Abstract(参考訳): ディープニューラルネットワークは、画像、形状、音声信号などのモダリティを越えてデータセットの潜在構造を学ぶために広く使われている。
しかし、既存のモデルは一般的にモダリティに依存しており、異なる信号のクラスを処理するためにカスタムアーキテクチャと目的が必要である。
我々は、画像、形状、オーディオ、およびクロスモーダルオーディオ視覚領域の基盤構造をモダリティに依存しない方法で捉えるために、ニューラルフィールドを利用する。
私たちは、データが存在する低次元の局所線型部分空間を推測することを目的とした、多様体の学習の1つとしてタスクをキャストしました。
GEMと呼ばれる我々のモデルは、多様体、局所線型性、局所アイソメトリのカバレッジを強制することにより、モーダル性にまたがるデータセットの基盤構造を捉えることを学ぶ。
すると、我々の多様体の線形領域に沿って移動して、サンプル間の知覚的に一貫した補間を得ることができ、さらにGEMを使って多様体上の点を復元し、入力画像の多様な完備化だけでなく、オーディオや画像信号のクロスモーダル幻覚を再現することができる。
最後に、GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成することができることを示す。
コードと追加結果はhttps://yilundu.github.io/gem/で入手できる。
関連論文リスト
- nnMamba: 3D Biomedical Image Segmentation, Classification and Landmark
Detection with State Space Model [24.955052600683423]
本稿では、CNNの強みとステートスペースシーケンスモデル(SSM)の高度な長距離モデリング機能を統合する新しいアーキテクチャであるnnMambaを紹介する。
6つのデータセットの実験では、3D画像のセグメンテーション、分類、ランドマーク検出など、一連の困難なタスクにおいて、nnMambaが最先端のメソッドよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-02-05T21:28:47Z) - Keypoint-Augmented Self-Supervised Learning for Medical Image
Segmentation with Limited Annotation [21.203307064937142]
本稿では,短距離と長距離の両方の自己注意を保った表現を抽出するキーポイント拡張融合層を提案する。
特に,長距離空間の自己意識を学習する追加入力を組み込むことで,CNN機能マップを複数スケールで拡張する。
提案手法は,より堅牢な自己アテンションを生成することにより,既存のSSLメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-10-02T22:31:30Z) - Extracting Semantic Knowledge from GANs with Unsupervised Learning [65.32631025780631]
GAN(Generative Adversarial Networks)は、特徴写像のセマンティクスを線形に分離可能な形でエンコードする。
本稿では,線形分離性を利用してGANの特徴をクラスタリングする新しいクラスタリングアルゴリズムKLiSHを提案する。
KLiSHは、さまざまなオブジェクトのデータセットに基づいてトレーニングされたGANのきめ細かいセマンティクスの抽出に成功している。
論文 参考訳(メタデータ) (2022-11-30T03:18:16Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES
Images [1.5469452301122177]
セマンティックセグメンテーションのためのディープラーニング(DL)と畳み込みニューラルネットワーク(CNN)の最近の進歩に基づいて構築する。
画像ソナーによって投影される全ての射程方位位置に対する魚・魚・魚の確率予測のためのエンドツーエンドのアプローチを実証する。
我々は,本モデルが所望のパフォーマンスを証明し,意味的文脈の重要性を活用することを学習したことを示す。
論文 参考訳(メタデータ) (2020-06-16T09:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。