論文の概要: Enhancing Landmark Detection in Cluttered Real-World Scenarios with
Vision Transformers
- arxiv url: http://arxiv.org/abs/2308.13671v1
- Date: Fri, 25 Aug 2023 21:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:57:49.748095
- Title: Enhancing Landmark Detection in Cluttered Real-World Scenarios with
Vision Transformers
- Title(参考訳): 視覚トランスフォーマーを用いたクラッタ実世界シナリオにおけるランドマーク検出の強化
- Authors: Mohammad Javad Rajabi, Morteza Mirzai, Ahmad Nickabadi
- Abstract要約: 本研究は,視覚的位置認識におけるランドマーク検出の進歩に寄与する。
これは、現実のシナリオを散らかすことによって引き起こされる課題を克服するために、ビジョントランスフォーマーを活用する可能性を示している。
- 参考スコア(独自算出の注目度): 2.900522306460408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual place recognition tasks often encounter significant challenges in
landmark detection due to the presence of irrelevant objects such as humans,
cars, and trees, despite the remarkable progress achieved by previous models,
especially in the context of transformers. To address this issue, we propose a
novel method that effectively leverages the strengths of vision transformers.
By employing a meticulous selection process, our approach identifies and
isolates specific patches within the image that correspond to occluding
objects. To evaluate the efficacy of our method, we created augmented datasets
and conducted comprehensive testing. The results demonstrate the superior
accuracy achieved by our proposed approach. This research contributes to the
advancement of landmark detection in visual place recognition and shows the
potential of leveraging vision transformers to overcome challenges posed by
cluttered real-world scenarios.
- Abstract(参考訳): 視覚的な位置認識タスクは、以前のモデル、特にトランスフォーマーの文脈で達成された著しい進歩にもかかわらず、人間、車、木といった無関係な物体の存在によるランドマーク検出において、しばしば重大な課題に直面する。
そこで本稿では,視覚トランスフォーマの強みを効果的に活用する新しい手法を提案する。
精細な選択プロセスを採用することで,occludingオブジェクトに対応するイメージ内の特定のパッチを識別し,分離する手法を提案する。
提案手法の有効性を評価するため,拡張データセットを作成し,総合的なテストを行った。
その結果,提案手法により得られた精度が向上した。
本研究は,視覚位置認識におけるランドマーク検出の進歩に寄与し,視覚トランスフォーマーを活用した実世界シナリオの課題克服の可能性を示す。
関連論文リスト
- LEAP:D - A Novel Prompt-based Approach for Domain-Generalized Aerial Object Detection [2.1233286062376497]
学習可能なプロンプトを用いた革新的な視覚言語アプローチを提案する。
この手動プロンプトからのシフトは、ドメイン固有の知識干渉を減らすことを目的としている。
トレーニングプロセスを一段階のアプローチで合理化し、学習可能なプロンプトとモデルトレーニングを同時に更新する。
論文 参考訳(メタデータ) (2024-11-14T04:39:10Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake
Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。
本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T07:19:45Z) - Improved TokenPose with Sparsity [0.0]
我々は、人間のポーズ推定を改善するために、キーポイントトークンアテンションと視覚トークンアテンションの両方に空間性を導入する。
MPIIデータセットによる実験結果から,本モデルは精度が高く,本手法の有効性が証明された。
論文 参考訳(メタデータ) (2023-11-16T08:12:34Z) - Fusing Pseudo Labels with Weak Supervision for Dynamic Traffic Scenarios [0.0]
我々は、異種データセットで訓練されたオブジェクト検出モデルから擬似ラベルをアマルガメートする弱い教師付きラベル統一パイプラインを導入する。
我々のパイプラインは、異なるデータセットからのラベルの集約、バイアスの修正、一般化の強化を通じて、統一されたラベル空間をエンゲージする。
我々は,統合ラベル空間を用いた単独物体検出モデルを再学習し,動的交通シナリオに精通した弾力性のあるモデルを構築した。
論文 参考訳(メタデータ) (2023-08-30T11:33:07Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Towards Accurate Facial Landmark Detection via Cascaded Transformers [14.74021483826222]
本稿では,カスケードトランスを用いた正確な顔のランドマーク検出手法を提案する。
トランスにおける自己注意によって、我々のモデルは本質的にランドマーク間の構造化された関係を活用できる。
このモデルでは, 目標ランドマークの周囲に最も関連性の高い画像の特徴を抽出し, 座標予測を行う。
論文 参考訳(メタデータ) (2022-08-23T08:42:13Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Detect and Locate: A Face Anti-Manipulation Approach with Semantic and
Noise-level Supervision [67.73180660609844]
本稿では,画像中の偽造顔を効率的に検出する,概念的にシンプルだが効果的な方法を提案する。
提案手法は,画像に関する意味の高い意味情報を提供するセグメンテーションマップに依存する。
提案モデルでは,最先端検出精度と顕著なローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2021-07-13T02:59:31Z) - Pretrained equivariant features improve unsupervised landmark discovery [69.02115180674885]
我々は、この課題を克服する2段階の教師なしアプローチを、強力なピクセルベースの特徴を初めて学習することによって定式化する。
本手法は,いくつかの難解なランドマーク検出データセットにおいて最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-04-07T05:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。