Fugu-MT 論文翻訳(概要): ViT Cane: Visual Assistant for the Visually Impaired

論文の概要: ViT Cane: Visual Assistant for the Visually Impaired

arxiv url: http://arxiv.org/abs/2109.13857v1
Date: Sun, 26 Sep 2021 02:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-30 07:04:59.158751
Title: ViT Cane: Visual Assistant for the Visually Impaired
Title（参考訳）: ViT Cane:視覚障害者のためのビジュアルアシスタント
Authors: Bhavesh Kumar
Abstract要約: 本稿では,視覚変換器モデルを利用してリアルタイムに障害物を検出するViT Caneを提案する。システム全体はPi Camera Module v2とRaspberry Pi 4Bと8GB Ramと4基のモーターで構成されています。 4つのモーターを用いた触覚入力に基づいて、障害物検出モデルは、未知の地形を視覚的に損なうのを助けるのに非常に効率的である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Blind and visually challenged face multiple issues with navigating the world independently. Some of these challenges include finding the shortest path to a destination and detecting obstacles from a distance. To tackle this issue, this paper proposes ViT Cane, which leverages a vision transformer model in order to detect obstacles in real-time. Our entire system consists of a Pi Camera Module v2, Raspberry Pi 4B with 8GB Ram and 4 motors. Based on tactile input using the 4 motors, the obstacle detection model is highly efficient in helping visually impaired navigate unknown terrain and is designed to be easily reproduced. The paper discusses the utility of a Visual Transformer model in comparison to other CNN based models for this specific application. Through rigorous testing, the proposed obstacle detection model has achieved higher performance on the Common Object in Context (COCO) data set than its CNN counterpart. Comprehensive field tests were conducted to verify the effectiveness of our system for holistic indoor understanding and obstacle avoidance.
Abstract（参考訳）: 盲目で視覚的な課題は、独立して世界をナビゲートすることで複数の問題に直面します。これらの課題には、目的地への最短経路を見つけ、距離から障害物を検出することが含まれる。そこで本研究では,視覚変換器モデルを利用してリアルタイムに障害物を検出するViT Caneを提案する。システム全体がPi Camera Module v2とRaspberry Pi 4Bと8GB Ramと4つのモーターで構成されています。 4つのモーターを用いた触覚入力に基づいて、障害物検出モデルは未知の地形の視覚的障害を解消し、容易に再現できるように設計されている。本稿では, 視覚トランスフォーマーモデルの実用性について, 他のcnnモデルと比較して考察する。厳密なテストを通じて、提案された障害物検出モデルは、cnnのデータセットよりもcoco(common object in context)データセットで高いパフォーマンスを達成している。本システムの有効性を総合的屋内理解と障害物回避のための総合的フィールドテストにより検証した。

関連論文リスト

Attention-Aware Multi-View Pedestrian Tracking [21.393389135740712]
最近の多視点歩行者検出モデルは、早期統合戦略の可能性を強調している。この戦略は、検出と追跡の両方のパフォーマンスを改善することが示されている。本稿では,多視点歩行者追跡シナリオに注意機構を組み込んだ新しいモデルを提案する。
論文参考訳（メタデータ） (2025-04-03T21:53:08Z)
Turn-by-Turn Indoor Navigation for the Visually Impaired [0.0]
室内環境のナビゲーションは視覚障害者にとって重要な課題である。本稿では,カメラを搭載したスマートフォンのみを用いた建物内部のターンバイターンナビゲーションシステムを提案する。複雑な屋内空間を利用者に正確に案内するシステムの有効性について予備評価を行った。
論文参考訳（メタデータ） (2024-10-25T20:16:38Z)
DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文参考訳（メタデータ） (2024-07-24T02:44:41Z)
ODTFormer: Efficient Obstacle Detection and Tracking with Stereo Cameras Based on Transformer [12.58804521609764]
ODTFormerはTransformerベースのモデルで、障害検出と追跡の両方の問題に対処する。我々は,最先端の障害物追跡モデルに匹敵する精度を報告し,そのコストはごくわずかである。
論文参考訳（メタデータ） (2024-03-21T17:59:55Z)
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。この手法をFocalFormer3Dとしてインスタンス化する。
論文参考訳（メタデータ） (2023-08-08T20:06:12Z)
ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。 3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文参考訳（メタデータ） (2023-03-27T15:35:21Z)
Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文参考訳（メタデータ） (2021-12-13T02:12:02Z)
2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文参考訳（メタデータ） (2021-06-16T11:32:03Z)
Finding a Needle in a Haystack: Tiny Flying Object Detection in 4K Videos using a Joint Detection-and-Tracking Approach [19.59528430884104]
本稿では,検出と追跡を共同で行うrecurrent correlational networkと呼ばれるニューラルネットワークモデルを提案する。鳥や無人航空機などの小さな飛行物体の画像を含むデータセットを用いた実験では、提案手法は一貫した改善をもたらした。我々のネットワークは、鳥の画像データセットのトラッカーとして評価されたとき、最先端の汎用オブジェクトトラッカと同様に機能します。
論文参考訳（メタデータ） (2021-05-18T03:22:03Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。私達のアプローチは人間の相互作用なしで完全に自動です。 VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文参考訳（メタデータ） (2020-12-15T03:03:38Z)
TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。 Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文参考訳（メタデータ） (2020-06-10T06:45:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。