論文の概要: A Comparative Study of Vision Transformers and CNNs for Few-Shot Rigid Transformation and Fundamental Matrix Estimation
- arxiv url: http://arxiv.org/abs/2510.04794v1
- Date: Mon, 06 Oct 2025 13:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.876648
- Title: A Comparative Study of Vision Transformers and CNNs for Few-Shot Rigid Transformation and Fundamental Matrix Estimation
- Title(参考訳): Few-Shot Rigid変換と基本行列推定のための視覚変換器とCNNの比較検討
- Authors: Alon Kaya, Igal Bilik, Inna Stainvas,
- Abstract要約: 視覚変換器(ViT)と大規模畳み込みニューラルネット(CNN)は、事前訓練された特徴表現を通じてコンピュータビジョンを再構築した。
本研究は,1)画像間の2次元剛性変換を推定し,2)ステレオ画像対の基本行列を予測する。
経験的比較分析は、スクラッチからのトレーニングと同様、ViTsは大規模なダウンストリームデータシナリオの洗練時にCNNを上回っていることを示している。
- 参考スコア(独自算出の注目度): 3.5684665108045377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-transformers (ViTs) and large-scale convolution-neural-networks (CNNs) have reshaped computer vision through pretrained feature representations that enable strong transfer learning for diverse tasks. However, their efficiency as backbone architectures for geometric estimation tasks involving image deformations in low-data regimes remains an open question. This work considers two such tasks: 1) estimating 2D rigid transformations between pairs of images and 2) predicting the fundamental matrix for stereo image pairs, an important problem in various applications, such as autonomous mobility, robotics, and 3D scene reconstruction. Addressing this intriguing question, this work systematically compares large-scale CNNs (ResNet, EfficientNet, CLIP-ResNet) with ViT-based foundation models (CLIP-ViT variants and DINO) in various data size settings, including few-shot scenarios. These pretrained models are optimized for classification or contrastive learning, encouraging them to focus mostly on high-level semantics. The considered tasks require balancing local and global features differently, challenging the straightforward adoption of these models as the backbone. Empirical comparative analysis shows that, similar to training from scratch, ViTs outperform CNNs during refinement in large downstream-data scenarios. However, in small data scenarios, the inductive bias and smaller capacity of CNNs improve their performance, allowing them to match that of a ViT. Moreover, ViTs exhibit stronger generalization in cross-domain evaluation where the data distribution changes. These results emphasize the importance of carefully selecting model architectures for refinement, motivating future research towards hybrid architectures that balance local and global representations.
- Abstract(参考訳): 視覚変換器(ViT)と大規模畳み込みニューラルネット(CNN)は、様々なタスクに対して強力な伝達学習を可能にする事前訓練された特徴表現を通じてコンピュータビジョンを再構築した。
しかしながら、低データ状態における画像変形を含む幾何推定タスクのバックボーンアーキテクチャとしての効率は、未解決の問題である。
この仕事は、以下の2つのタスクを考慮に入れます。
1)画像の対と2次元の剛性変換の推定
2) ステレオ画像ペアの基本行列の予測は, 自律移動性, ロボット工学, 3次元シーン再構築など, 様々な応用において重要な問題である。
この興味深い問題に対処するため、この研究は、大規模なCNN(ResNet、EfficientNet、CLIP-ResNet)とViTベースの基盤モデル(CLIP-ViTとDINO)を、いくつかのシナリオを含むさまざまなデータサイズ設定で体系的に比較する。
これらの事前訓練されたモデルは、分類やコントラスト学習に最適化されており、主に高レベルのセマンティクスに焦点を合わせることを奨励している。
検討されたタスクは、ローカル機能とグローバル機能のバランスを異にする必要があり、バックボーンとしてこれらのモデルの直接的な採用に挑戦する。
経験的比較分析は、スクラッチからのトレーニングと同様、ViTsは大規模なダウンストリームデータシナリオの洗練時にCNNを上回っていることを示している。
しかし、小さなデータシナリオでは、誘導バイアスとCNNのキャパシティが向上し、ViTにマッチする。
さらに、データ分散が変化する領域間評価において、ViTはより強力な一般化を示す。
これらの結果は、改善のためのモデルアーキテクチャを慎重に選択することの重要性を強調し、局所的およびグローバルな表現のバランスをとるハイブリッドアーキテクチャに向けた将来の研究を動機付けている。
関連論文リスト
- Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
Vision Transformers (ViT) はコンピュータビジョンの分野で新たな研究の波をもたらした。
本稿では,航空画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
本稿では,新たな重み付き損失関数がCNNモデルの性能をViTを用いたトランスファー学習と比較して著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - A Data-scalable Transformer for Medical Image Segmentation:
Architecture, Model Efficiency, and Benchmark [45.543140413399506]
MedFormerは、一般化可能な3次元医用画像セグメンテーションのために設計されたデータスケーリング可能なトランスフォーマーである。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, マルチスケール特徴融合の3つの要素が組み込まれている。
論文 参考訳(メタデータ) (2022-02-28T22:59:42Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。