論文の概要: ViT Cane: Visual Assistant for the Visually Impaired
- arxiv url: http://arxiv.org/abs/2109.13857v1
- Date: Sun, 26 Sep 2021 02:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 07:04:59.158751
- Title: ViT Cane: Visual Assistant for the Visually Impaired
- Title(参考訳): ViT Cane:視覚障害者のためのビジュアルアシスタント
- Authors: Bhavesh Kumar
- Abstract要約: 本稿では,視覚変換器モデルを利用してリアルタイムに障害物を検出するViT Caneを提案する。
システム全体はPi Camera Module v2とRaspberry Pi 4Bと8GB Ramと4基のモーターで構成されています。
4つのモーターを用いた触覚入力に基づいて、障害物検出モデルは、未知の地形を視覚的に損なうのを助けるのに非常に効率的である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Blind and visually challenged face multiple issues with navigating the world
independently. Some of these challenges include finding the shortest path to a
destination and detecting obstacles from a distance. To tackle this issue, this
paper proposes ViT Cane, which leverages a vision transformer model in order to
detect obstacles in real-time. Our entire system consists of a Pi Camera Module
v2, Raspberry Pi 4B with 8GB Ram and 4 motors. Based on tactile input using the
4 motors, the obstacle detection model is highly efficient in helping visually
impaired navigate unknown terrain and is designed to be easily reproduced. The
paper discusses the utility of a Visual Transformer model in comparison to
other CNN based models for this specific application. Through rigorous testing,
the proposed obstacle detection model has achieved higher performance on the
Common Object in Context (COCO) data set than its CNN counterpart.
Comprehensive field tests were conducted to verify the effectiveness of our
system for holistic indoor understanding and obstacle avoidance.
- Abstract(参考訳): 盲目で視覚的な課題は、独立して世界をナビゲートすることで複数の問題に直面します。
これらの課題には、目的地への最短経路を見つけ、距離から障害物を検出することが含まれる。
そこで本研究では,視覚変換器モデルを利用してリアルタイムに障害物を検出するViT Caneを提案する。
システム全体がPi Camera Module v2とRaspberry Pi 4Bと8GB Ramと4つのモーターで構成されています。
4つのモーターを用いた触覚入力に基づいて、障害物検出モデルは未知の地形の視覚的障害を解消し、容易に再現できるように設計されている。
本稿では, 視覚トランスフォーマーモデルの実用性について, 他のcnnモデルと比較して考察する。
厳密なテストを通じて、提案された障害物検出モデルは、cnnのデータセットよりもcoco(common object in context)データセットで高いパフォーマンスを達成している。
本システムの有効性を総合的屋内理解と障害物回避のための総合的フィールドテストにより検証した。
関連論文リスト
- An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single
Camera [10.573423265001706]
本稿では,1台のカメラからの画像に基づく広帯域Pseudo-3D車両検出手法を提案する。
擬似3次元物体を検出するために,本モデルは特別に設計された検出ヘッドを採用する。
オブジェクトボックスとSPLを併用した共同制約損失はモデルトレーニング時に設計され、モデルの効率、安定性、予測精度が向上する。
論文 参考訳(メタデータ) (2023-09-15T12:50:09Z) - FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。
本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。
この手法をFocalFormer3Dとしてインスタンス化する。
論文 参考訳(メタデータ) (2023-08-08T20:06:12Z) - ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every
Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。
3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文 参考訳(メタデータ) (2023-03-27T15:35:21Z) - Multi-Camera Multiple 3D Object Tracking on the Move for Autonomous
Vehicles [17.12321292167318]
オブジェクトの検出と追跡は、カメラのビューにまたがって一貫した結果を達成するなど、新しい課題に対処するために重要である。
本研究は,既存のトラックレットの位置とリンク検出をトラックレットで予測するために,リンク予測を用いた新たなグローバルアソシエーショングラフモデルを提案する。
本モデルは, nuScenes 検出課題における標準3次元物体検出器の検出精度の向上に有効である。
論文 参考訳(メタデータ) (2022-04-19T22:50:36Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - Finding a Needle in a Haystack: Tiny Flying Object Detection in 4K
Videos using a Joint Detection-and-Tracking Approach [19.59528430884104]
本稿では,検出と追跡を共同で行うrecurrent correlational networkと呼ばれるニューラルネットワークモデルを提案する。
鳥や無人航空機などの小さな飛行物体の画像を含むデータセットを用いた実験では、提案手法は一貫した改善をもたらした。
我々のネットワークは、鳥の画像データセットのトラッカーとして評価されたとき、最先端の汎用オブジェクトトラッカと同様に機能します。
論文 参考訳(メタデータ) (2021-05-18T03:22:03Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。