論文の概要: Implicit Neural Representation Facilitates Unified Universal Vision Encoding
- arxiv url: http://arxiv.org/abs/2601.14256v1
- Date: Tue, 20 Jan 2026 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.46689
- Title: Implicit Neural Representation Facilitates Unified Universal Vision Encoding
- Title(参考訳): Inlicit Neural Representation Facilitated Unified Universal Vision Encoding
- Authors: Matthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang,
- Abstract要約: 第一種モデルは、認識と生成に同時に役立つ表現を学習する。
我々は、暗黙のニューラル表現のためのハイパーネットワークとしてモデルをトレーニングし、高速で正確な再構築のために画像の重みをモデルにマッピングすることを学ぶ。
このモデルは、様々な視覚的タスクに優れた性能を持つ前例のない圧縮埋め込み空間も学習する。
- 参考スコア(独自算出の注目度): 11.947746726150001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.
- Abstract(参考訳): 画像表現学習のモデルは通常、認識または生成のために設計される。
コントラスト学習の様々な形態は、イメージを分類、検出、セグメンテーションに有用な埋め込みに変換するのに役立つ。
一方,画像生成に有用な潜伏空間を学習するために,画像の画素的・知覚的・対角的損失による再構成を訓練することができる。
我々はこれらの2つの方向を、認識と生成に同時に役立つ表現を学習する第一種モデルで統一することを目指している。
我々は、暗黙のニューラル表現のためのハイパーネットワークとしてモデルをトレーニングし、高速で正確な再構築のために画像の重みをモデルにマッピングすることを学ぶ。
さらに,INRハイパーネットワークと知識蒸留を統合し,その一般化と性能を向上させる。
このモデルは、新しいトレーニングデザインの他に、様々な視覚的タスクに優れた性能を持つ前例のない圧縮された埋め込み空間も学習する。
完全なモデルは、画像表現学習の最先端の結果と競合すると同時に、高品質の小さな埋め込みで生成機能を実現する。
コードはhttps://github.com/tiktok/huvr.comで公開されている。
関連論文リスト
- Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Distilling Visual Priors from Self-Supervised Learning [24.79633121345066]
畳み込みニューラルネットワーク(CNN)は、小さなトレーニングデータセットに適合する傾向にある。
データ不足条件下での画像分類のためのCNNモデルの一般化能力を向上させるために,自己教師付き学習と知識蒸留を活用した2相パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-01T13:07:18Z) - Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-01-18T12:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。