Fugu-MT 論文翻訳(概要): A Saccaded Visual Transformer for General Object Spotting

論文の概要: A Saccaded Visual Transformer for General Object Spotting

arxiv url: http://arxiv.org/abs/2210.09220v1
Date: Mon, 17 Oct 2022 16:17:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 19:54:50.039777
Title: A Saccaded Visual Transformer for General Object Spotting
Title（参考訳）: 一般物体スポッティング用サッケード視覚変圧器
Authors: Willem.T.Pye, David.A.Sinclair
Abstract要約: オブジェクトモデルをトレーニングするための最適化パラダイムが提示される。ネットワークは、ラベル付きオブジェクトのセントロイドへの正規化距離を推定するために訓練される。得られたサケードされた視覚変換器は、人間の顔に示される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents the novel combination of a visual transformer style patch classifier with saccaded local attention. A novel optimisation paradigm for training object models is also presented, rather than the optimisation function minimising class membership probability error the network is trained to estimate the normalised distance to the centroid of labelled objects. This approach builds a degree of transnational invariance directly into the model and allows fast saccaded search with gradient ascent to find object centroids. The resulting saccaded visual transformer is demonstrated on human faces.
Abstract（参考訳）: 本稿では,視覚トランスフォーマー方式パッチ分類器と局所的注意点を併用した新しい組み合わせを提案する。ネットワークがラベル付きオブジェクトのセンタロイドへの正規化距離を推定するように訓練したクラスメンバシップ確率誤差を最小化する最適化関数ではなく、オブジェクトモデルのトレーニングのための新しい最適化パラダイムも提示される。このアプローチは、モデルに直接超国家的不変度を構築し、勾配上昇による高速なサケード探索により、対象のセントロイドを見つけることができる。その結果得られた視覚変換器は人間の顔に示される。

関連論文リスト

BOOTPLACE: Bootstrapped Object Placement with Detection Transformers [23.300369070771836]
本稿では,オブジェクト配置を位置検出問題として定式化する新しいパラダイムであるBOOTPLACEを紹介する。確立されたベンチマークの実験結果は、BOOTPLACEのオブジェクト再配置における優れた性能を示している。
論文参考訳（メタデータ） (2025-03-27T21:21:20Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
Hierarchical Vector Quantized Transformer for Multi-class Unsupervised Anomaly Detection [24.11900895337062]
教師なし画像異常検出(UAD)は、正常サンプルの堅牢かつ識別的な表現を学習することを目的としている。本稿では,複数のクラスに統一されたフレームワークを構築することに焦点を当てる。
論文参考訳（メタデータ） (2023-10-22T08:20:33Z)
Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文参考訳（メタデータ） (2023-08-22T13:55:57Z)
Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。 QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-03-27T11:13:50Z)
Improving Transformer-based Image Matching by Cascaded Capturing Spatially Informative Keypoints [44.90917854990362]
変換器を用いたカスケードマッチングモデル -- Cascade Feature Matching TRansformer (CasMTR) を提案する。我々は、信頼性マップを通じてキーポイントをフィルタリングするために、単純で効果的な非最大抑圧(NMS)後処理を使用する。 CasMTRは、室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。
論文参考訳（メタデータ） (2023-03-06T04:32:34Z)
Learning Explicit Object-Centric Representations with Vision Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文参考訳（メタデータ） (2022-10-25T16:39:49Z)
Robust and Controllable Object-Centric Learning through Energy-based Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文参考訳（メタデータ） (2022-10-11T15:11:15Z)
Towards Accurate Facial Landmark Detection via Cascaded Transformers [14.74021483826222]
本稿では,カスケードトランスを用いた正確な顔のランドマーク検出手法を提案する。トランスにおける自己注意によって、我々のモデルは本質的にランドマーク間の構造化された関係を活用できる。このモデルでは, 目標ランドマークの周囲に最も関連性の高い画像の特徴を抽出し, 座標予測を行う。
論文参考訳（メタデータ） (2022-08-23T08:42:13Z)
End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文参考訳（メタデータ） (2021-03-22T18:19:22Z)
Improving Few-shot Learning by Spatially-aware Matching and CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文参考訳（メタデータ） (2020-01-06T14:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。