論文の概要: Non-Hierarchical Transformers for Pedestrian Segmentation
- arxiv url: http://arxiv.org/abs/2311.02506v1
- Date: Tue, 11 Jul 2023 02:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 16:46:00.135975
- Title: Non-Hierarchical Transformers for Pedestrian Segmentation
- Title(参考訳): 歩行者セグメンテーションのための非階層変圧器
- Authors: Amani Kiruga, Xi Peng
- Abstract要約: 本稿では,自律システムにおけるインスタンスセグメンテーションの課題,特にアクセシビリティとインクリシティを対象とする手法を提案する。
提案手法では,非階層型視覚変換器のEVA-02とカスケードマスクR-CNNマスクヘッドを併用する。
以上の結果から,視覚能力の向上と,障害者のユニークなニーズに配慮したViTアーキテクチャの有効性が示された。
- 参考スコア(独自算出の注目度): 10.904355350460056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a methodology to address the challenge of instance segmentation in
autonomous systems, specifically targeting accessibility and inclusivity. Our
approach utilizes a non-hierarchical Vision Transformer variant, EVA-02,
combined with a Cascade Mask R-CNN mask head. Through fine-tuning on the AVA
instance segmentation challenge dataset, we achieved a promising mean Average
Precision (mAP) of 52.68\% on the test set. Our results demonstrate the
efficacy of ViT-based architectures in enhancing vision capabilities and
accommodating the unique needs of individuals with disabilities.
- Abstract(参考訳): 本稿では,自律システムにおけるインスタンスセグメンテーションの課題,特にアクセシビリティとインクリシティを対象とする手法を提案する。
提案手法では,非階層型視覚変換器のEVA-02とカスケードマスクR-CNNマスクヘッドを併用する。
AVAインスタンスセグメンテーションチャレンジデータセットの微調整により、テストセットで平均精度(mAP)52.68\%の有望な平均値を達成した。
本研究は,視覚能力の向上と,障害者のユニークなニーズに配慮したViTアーキテクチャの有効性を示すものである。
関連論文リスト
- Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
Segment Anything Model (SAM) は、その顕著な一般化能力により、異常セグメンテーションタスクにおいて大きな進歩を遂げている。
SAMを直接適用する既存のメソッドは、しばしばドメインシフトの問題を見落としている。
本稿では, SAMの異常セグメンテーションに対する知覚能力を高めることを目的とした, 自己パーセプティノンチューニング(SPT)手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Vision Transformer for Action Units Detection [11.479653866646762]
本稿では,行動単位検出(AU)の課題に対処するためのビジョントランスフォーマーに基づくアプローチを提案する。
我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。
我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、結果として顕著な14%の違いがある。
論文 参考訳(メタデータ) (2023-03-16T13:43:02Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - 2nd Place Solution for VisDA 2021 Challenge -- Universally Domain
Adaptive Image Recognition [38.54810374543916]
一般的な特徴抽出と領域適応スキームを集約することで、ユニバーサルドメイン適応(UniDA)手法を導入する。
リーダーボードに示すように、我々の提案したUniDAメソッドは、VisDA 2021 Challengeで48.56%のACCと70.72%のAUROCで2位にランクインしている。
論文 参考訳(メタデータ) (2021-10-27T07:48:29Z) - MViT: Mask Vision Transformer for Facial Expression Recognition in the
wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。
本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。
我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文 参考訳(メタデータ) (2021-06-08T16:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。