論文の概要: Trans4Trans: Efficient Transformer for Transparent Object and Semantic
Scene Segmentation in Real-World Navigation Assistance
- arxiv url: http://arxiv.org/abs/2108.09174v1
- Date: Fri, 20 Aug 2021 13:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:17:04.984339
- Title: Trans4Trans: Efficient Transformer for Transparent Object and Semantic
Scene Segmentation in Real-World Navigation Assistance
- Title(参考訳): trans4trans:リアルタイムナビゲーション支援における透明物体と意味シーンセグメンテーションのための効率的なトランスフォーマー
- Authors: Jiaming Zhang, Kailun Yang, Angela Constantinescu, Kunyu Peng, Karin
M\"uller, Rainer Stiefelhagen
- Abstract要約: 我々は,トランスパレンシー(Trans4Trans)知覚モデルのための新しいデュアルヘッドトランスフォーマを用いたウェアラブルシステムを構築した。
2つの密接なセグメンテーションの結果は、ユーザが安全にナビゲートし、透明な障害物を交渉するのを助けるために、システム内の深度情報とさらに結合される。
Trans4Transモデル全体は対称エンコーダデコーダアーキテクチャで構築されており、Stanford2D3DとTrans10K-v2データセットのテストセットにおける最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 25.206941504935685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transparent objects, such as glass walls and doors, constitute architectural
obstacles hindering the mobility of people with low vision or blindness. For
instance, the open space behind glass doors is inaccessible, unless it is
correctly perceived and interacted with. However, traditional assistive
technologies rarely cover the segmentation of these safety-critical transparent
objects. In this paper, we build a wearable system with a novel dual-head
Transformer for Transparency (Trans4Trans) perception model, which can segment
general- and transparent objects. The two dense segmentation results are
further combined with depth information in the system to help users navigate
safely and assist them to negotiate transparent obstacles. We propose a
lightweight Transformer Parsing Module (TPM) to perform multi-scale feature
interpretation in the transformer-based decoder. Benefiting from TPM, the
double decoders can perform joint learning from corresponding datasets to
pursue robustness, meanwhile maintain efficiency on a portable GPU, with
negligible calculation increase. The entire Trans4Trans model is constructed in
a symmetrical encoder-decoder architecture, which outperforms state-of-the-art
methods on the test sets of Stanford2D3D and Trans10K-v2 datasets, obtaining
mIoU of 45.13% and 75.14%, respectively. Through a user study and various
pre-tests conducted in indoor and outdoor scenes, the usability and reliability
of our assistive system have been extensively verified. Meanwhile, the
Tran4Trans model has outstanding performances on driving scene datasets. On
Cityscapes, ACDC, and DADA-seg datasets corresponding to common environments,
adverse weather, and traffic accident scenarios, mIoU scores of 81.5%, 76.3%,
and 39.2% are obtained, demonstrating its high efficiency and robustness for
real-world transportation applications.
- Abstract(参考訳): ガラスの壁やドアのような透明な物体は、視力や盲目の人々の移動を妨げる建築上の障害を構成する。
例えば、ガラスのドアの後ろのオープンスペースは、正しく認識され、相互作用しない限りアクセスできない。
しかし、従来の補助技術は、これらの安全クリティカルな透明物体のセグメンテーションをほとんどカバーしていない。
本稿では,一般物体と透明物体をセグメンテーション可能な,透過性(trans4trans)知覚モデルのための新しいデュアルヘッドトランスフォーマを用いたウェアラブルシステムを構築する。
2つの密接なセグメンテーション結果とシステム内の深度情報を組み合わせることで、ユーザが安全にナビゲートし、透明な障害物の交渉を支援する。
本稿では,トランスフォーマーベースのデコーダにおいて,マルチスケールの特徴解釈を行う軽量トランスフォーマー解析モジュール(TPM)を提案する。
TPMから恩恵を受けるため、ダブルデコーダは対応するデータセットからのジョイントラーニングを実行して堅牢性を追求し、一方可搬性のあるGPU上で効率を維持できる。
Trans4Transモデル全体は対称エンコーダデコーダアーキテクチャで構築されており、Stanford2D3DとTrans10K-v2データセットのテストセットでは、それぞれ45.13%と75.14%のmIoUが得られる。
屋内および屋外の場面におけるユーザスタディと各種プレテストを通じて,本システムの有用性と信頼性を広く検証した。
一方、Tran4Transモデルでは、シーンデータセットの駆動に優れたパフォーマンスがある。
一般的な環境、悪天候、交通事故のシナリオに対応する都市景観、ACDC、DAD-segデータセットでは、mIoUスコアは81.5%、76.3%、39.2%となり、実際の輸送用途において高い効率と堅牢性を示している。
関連論文リスト
- Efficient Joint Detection and Multiple Object Tracking with Spatially
Aware Transformer [0.8808021343665321]
マルチオブジェクト追跡のための軽量かつ高効率な関節検出・追跡パイプラインを提案する。
CNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。
修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。
論文 参考訳(メタデータ) (2022-11-09T07:19:33Z) - TODE-Trans: Transparent Object Depth Estimation with Transformer [16.928131778902564]
トランスを用いた1つのRGB-D入力からの透明物体深度推定手法を提案する。
きめ細かい機能を強化するため、特徴融合モジュール(FFM)はコヒーレントな予測を支援するように設計されている。
論文 参考訳(メタデータ) (2022-09-18T03:04:01Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Cyber Mobility Mirror: Deep Learning-based Real-time 3D Object
Perception and Reconstruction Using Roadside LiDAR [14.566471856473813]
Cyber Mobility Mirrorは、3Dオブジェクトの検出、分類、追跡、再構築のための次世代のリアルタイム交通監視システムである。
実地試験の結果,試作システムでは96.99%の精度で,83.62%のリコールを達成できた。
高忠実度リアルタイム交通条件は、搭載車両のGUIに3-4Hzの周波数で表示することができる。
論文 参考訳(メタデータ) (2022-02-28T01:58:24Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Trans4Trans: Efficient Transformer for Transparent Object Segmentation
to Help Visually Impaired People Navigate in the Real World [25.206941504935685]
トランスパレンシー(Transparency)モデルのための新しいデュアルヘッド変換器(Trans4Trans)を用いたウェアラブルシステムを構築する。
一般的な、透明な物体を分割し、より安全に歩くのを助けるためにリアルタイムのウェイフィニングを行うことができる。
我々のTrans4Transモデルは、Stanford2D3DとTrans10K-v2データセットのテストセットにおける最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-07T12:06:27Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。