論文の概要: GViT: Representing Images as Gaussians for Visual Recognition
- arxiv url: http://arxiv.org/abs/2506.23532v1
- Date: Mon, 30 Jun 2025 05:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.931827
- Title: GViT: Representing Images as Gaussians for Visual Recognition
- Title(参考訳): GViT:画像を視覚認識のためのガウスとして表現する
- Authors: Jefferson Hernandez, Ruozhen He, Guha Balakrishnan, Alexander C. Berg, Vicente Ordonez,
- Abstract要約: GVITは従来のピクセルやパッチグリッドの入力表現を捨て、学習可能な2Dガウスのコンパクトなセットを優先する分類フレームワークである。
比較的標準的なViTアーキテクチャを用いて、2次元ガウス入力表現とGVITガイダンスを組み合わせることで、従来のパッチベースのViTの性能と密に一致していることを示す。
- 参考スコア(独自算出の注目度): 54.46109876668194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GVIT, a classification framework that abandons conventional pixel or patch grid input representations in favor of a compact set of learnable 2D Gaussians. Each image is encoded as a few hundred Gaussians whose positions, scales, orientations, colors, and opacities are optimized jointly with a ViT classifier trained on top of these representations. We reuse the classifier gradients as constructive guidance, steering the Gaussians toward class-salient regions while a differentiable renderer optimizes an image reconstruction loss. We demonstrate that by 2D Gaussian input representations coupled with our GVIT guidance, using a relatively standard ViT architecture, closely matches the performance of a traditional patch-based ViT, reaching a 76.9% top-1 accuracy on Imagenet-1k using a ViT-B architecture.
- Abstract(参考訳): GVITは従来のピクセルやパッチグリッドの入力表現を捨て、学習可能な2Dガウスのコンパクトなセットを優先する分類フレームワークである。
各画像は数百のガウスアンとして符号化され、その位置、スケール、方向、色、不透明度は、これらの表現の上に訓練されたViT分類器と共に最適化される。
構成的ガイダンスとして分類器勾配を再利用し,画像再構成損失の最適化を行う。
比較的標準的なViTアーキテクチャを用いて、2次元ガウス入力表現とGVITガイダンスを組み合わせることで、従来のパッチベースのViTの性能と密に一致し、ViT-Bアーキテクチャを用いてImagenet-1k上で76.9%の精度を達成できることを実証した。
関連論文リスト
- EigenGS Representation: From Eigenspace to Gaussian Image Space [20.454762899389358]
EigenGSは、固有空間と画像空間のガウス表現を接続する効率的な変換パイプラインである。
EigenGSは直接2次元ガウスフィッティングよりも優れた再現性が得られることを示す。
結果は,様々な解像度と多様なカテゴリを持つ画像に対して,EigenGSの有効性と一般化能力を強調した。
論文 参考訳(メタデータ) (2025-03-10T15:27:03Z) - Large Images are Gaussians: High-Quality Large Image Representation with Levels of 2D Gaussian Splatting [21.629316414488027]
textbfLarge textbfImages are textbfGaussians (textbfLIG)。
論文 参考訳(メタデータ) (2025-02-13T07:48:56Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders [11.727612242016871]
ViC-MAEはMasked AutoEncoders(MAE)とコントラスト学習を組み合わせたモデルである。
ViC-MAEで学習した視覚表現は、映像分類と画像分類の両方によく当てはまる。
論文 参考訳(メタデータ) (2023-03-21T16:33:40Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - DFM: A Performance Baseline for Deep Feature Matching [10.014010310188821]
提案手法では,事前学習したVGGアーキテクチャを特徴抽出器として使用し,マッチングを改善するために追加の訓練を必要としない。
提案アルゴリズムは,Hpatchesデータセット上で,平均マッチング精度(MMA)で0.57と0.80のスコアをそれぞれ1ピクセル,2ピクセルの閾値で達成する。
論文 参考訳(メタデータ) (2021-06-14T22:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。