論文の概要: ViT Cane: Visual Assistant for the Visually Impaired
- arxiv url: http://arxiv.org/abs/2109.13857v1
- Date: Sun, 26 Sep 2021 02:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 07:04:59.158751
- Title: ViT Cane: Visual Assistant for the Visually Impaired
- Title(参考訳): ViT Cane:視覚障害者のためのビジュアルアシスタント
- Authors: Bhavesh Kumar
- Abstract要約: 本稿では,視覚変換器モデルを利用してリアルタイムに障害物を検出するViT Caneを提案する。
システム全体はPi Camera Module v2とRaspberry Pi 4Bと8GB Ramと4基のモーターで構成されています。
4つのモーターを用いた触覚入力に基づいて、障害物検出モデルは、未知の地形を視覚的に損なうのを助けるのに非常に効率的である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Blind and visually challenged face multiple issues with navigating the world
independently. Some of these challenges include finding the shortest path to a
destination and detecting obstacles from a distance. To tackle this issue, this
paper proposes ViT Cane, which leverages a vision transformer model in order to
detect obstacles in real-time. Our entire system consists of a Pi Camera Module
v2, Raspberry Pi 4B with 8GB Ram and 4 motors. Based on tactile input using the
4 motors, the obstacle detection model is highly efficient in helping visually
impaired navigate unknown terrain and is designed to be easily reproduced. The
paper discusses the utility of a Visual Transformer model in comparison to
other CNN based models for this specific application. Through rigorous testing,
the proposed obstacle detection model has achieved higher performance on the
Common Object in Context (COCO) data set than its CNN counterpart.
Comprehensive field tests were conducted to verify the effectiveness of our
system for holistic indoor understanding and obstacle avoidance.
- Abstract(参考訳): 盲目で視覚的な課題は、独立して世界をナビゲートすることで複数の問題に直面します。
これらの課題には、目的地への最短経路を見つけ、距離から障害物を検出することが含まれる。
そこで本研究では,視覚変換器モデルを利用してリアルタイムに障害物を検出するViT Caneを提案する。
システム全体がPi Camera Module v2とRaspberry Pi 4Bと8GB Ramと4つのモーターで構成されています。
4つのモーターを用いた触覚入力に基づいて、障害物検出モデルは未知の地形の視覚的障害を解消し、容易に再現できるように設計されている。
本稿では, 視覚トランスフォーマーモデルの実用性について, 他のcnnモデルと比較して考察する。
厳密なテストを通じて、提案された障害物検出モデルは、cnnのデータセットよりもcoco(common object in context)データセットで高いパフォーマンスを達成している。
本システムの有効性を総合的屋内理解と障害物回避のための総合的フィールドテストにより検証した。
関連論文リスト
- Turn-by-Turn Indoor Navigation for the Visually Impaired [0.0]
室内環境のナビゲーションは視覚障害者にとって重要な課題である。
本稿では,カメラを搭載したスマートフォンのみを用いた建物内部のターンバイターンナビゲーションシステムを提案する。
複雑な屋内空間を利用者に正確に案内するシステムの有効性について予備評価を行った。
論文 参考訳(メタデータ) (2024-10-25T20:16:38Z) - DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - ODTFormer: Efficient Obstacle Detection and Tracking with Stereo Cameras Based on Transformer [12.58804521609764]
ODTFormerはTransformerベースのモデルで、障害検出と追跡の両方の問題に対処する。
我々は,最先端の障害物追跡モデルに匹敵する精度を報告し,そのコストはごくわずかである。
論文 参考訳(メタデータ) (2024-03-21T17:59:55Z) - FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。
本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。
この手法をFocalFormer3Dとしてインスタンス化する。
論文 参考訳(メタデータ) (2023-08-08T20:06:12Z) - ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every
Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。
3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文 参考訳(メタデータ) (2023-03-27T15:35:21Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - Finding a Needle in a Haystack: Tiny Flying Object Detection in 4K
Videos using a Joint Detection-and-Tracking Approach [19.59528430884104]
本稿では,検出と追跡を共同で行うrecurrent correlational networkと呼ばれるニューラルネットワークモデルを提案する。
鳥や無人航空機などの小さな飛行物体の画像を含むデータセットを用いた実験では、提案手法は一貫した改善をもたらした。
我々のネットワークは、鳥の画像データセットのトラッカーとして評価されたとき、最先端の汎用オブジェクトトラッカと同様に機能します。
論文 参考訳(メタデータ) (2021-05-18T03:22:03Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。