論文の概要: Trans4Trans: Efficient Transformer for Transparent Object Segmentation
to Help Visually Impaired People Navigate in the Real World
- arxiv url: http://arxiv.org/abs/2107.03172v1
- Date: Wed, 7 Jul 2021 12:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:52:31.412670
- Title: Trans4Trans: Efficient Transformer for Transparent Object Segmentation
to Help Visually Impaired People Navigate in the Real World
- Title(参考訳): Trans4Trans:視覚障害者の現実世界でのナビゲーションを支援する透明物体分割のための効率的なトランスフォーマー
- Authors: Jiaming Zhang, Kailun Yang, Angela Constantinescu, Kunyu Peng, Karin
M\"uller, Rainer Stiefelhagen
- Abstract要約: トランスパレンシー(Transparency)モデルのための新しいデュアルヘッド変換器(Trans4Trans)を用いたウェアラブルシステムを構築する。
一般的な、透明な物体を分割し、より安全に歩くのを助けるためにリアルタイムのウェイフィニングを行うことができる。
我々のTrans4Transモデルは、Stanford2D3DとTrans10K-v2データセットのテストセットにおける最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 25.206941504935685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common fully glazed facades and transparent objects present architectural
barriers and impede the mobility of people with low vision or blindness, for
instance, a path detected behind a glass door is inaccessible unless it is
correctly perceived and reacted. However, segmenting these safety-critical
objects is rarely covered by conventional assistive technologies. To tackle
this issue, we construct a wearable system with a novel dual-head Transformer
for Transparency (Trans4Trans) model, which is capable of segmenting general
and transparent objects and performing real-time wayfinding to assist people
walking alone more safely. Especially, both decoders created by our proposed
Transformer Parsing Module (TPM) enable effective joint learning from different
datasets. Besides, the efficient Trans4Trans model composed of symmetric
transformer-based encoder and decoder, requires little computational expenses
and is readily deployed on portable GPUs. Our Trans4Trans model outperforms
state-of-the-art methods on the test sets of Stanford2D3D and Trans10K-v2
datasets and obtains mIoU of 45.13% and 75.14%, respectively. Through various
pre-tests and a user study conducted in indoor and outdoor scenarios, the
usability and reliability of our assistive system have been extensively
verified.
- Abstract(参考訳): 一般的な完全にガラス張りのファサードや透明な物体は、建築上の障壁が存在し、視力や視力が低い人の移動を妨げる。
しかし、これらの安全クリティカルな物体のセグメンテーションは、従来の補助技術ではほとんどカバーされない。
そこで本研究では, 汎用および透明な物体を分割し, 一人歩きを支援するリアルタイムのウェイフィングを行うことが可能な, 透明化のためのデュアルヘッドトランスフォーマー(trans4trans)モデルを用いたウェアラブルシステムを構築する。
特に,提案したTransformer Parsing Module (TPM) によって生成されたデコーダは,異なるデータセットから効果的な共同学習を可能にする。
さらに、対称トランスフォーマベースのエンコーダとデコーダで構成される効率的なtrans4transモデルでは、計算コストが少なく、ポータブルgpuに容易にデプロイできる。
我々のTrans4Transモデルは、Stanford2D3DとTrans10K-v2データセットのテストセットで最先端の手法より優れ、それぞれ45.13%と75.14%のmIoUが得られる。
屋内および屋外のシナリオで実施した様々な事前試験とユーザスタディを通じて,本システムの有用性と信頼性を広く検証した。
関連論文リスト
- Efficient Vision Transformer for Accurate Traffic Sign Detection [0.0]
本研究では,自動運転車や運転支援システムにおける交通標識検出の課題について論じる。
この課題に対処するため、Transformerモデル、特にVision Transformerの派生版が導入された。
本研究はトランスフォーマーモデルの効率を高めるために,局所性帰納バイアスとトランスフォーマーモジュールを統合する新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-11-02T17:44:32Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Trans4Trans: Efficient Transformer for Transparent Object and Semantic
Scene Segmentation in Real-World Navigation Assistance [25.206941504935685]
我々は,トランスパレンシー(Trans4Trans)知覚モデルのための新しいデュアルヘッドトランスフォーマを用いたウェアラブルシステムを構築した。
2つの密接なセグメンテーションの結果は、ユーザが安全にナビゲートし、透明な障害物を交渉するのを助けるために、システム内の深度情報とさらに結合される。
Trans4Transモデル全体は対称エンコーダデコーダアーキテクチャで構築されており、Stanford2D3DとTrans10K-v2データセットのテストセットにおける最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-20T13:46:39Z) - TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking [87.75122600164167]
私たちは、標準表現(バウンディングボックス)は、マルチオブジェクトトラッキングのためのトランスフォーマー学習に適応していないと主張している。
複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャであるTransCenterを提案する。
論文 参考訳(メタデータ) (2021-03-28T14:49:36Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。