論文の概要: Perception Framework through Real-Time Semantic Segmentation and Scene
Recognition on a Wearable System for the Visually Impaired
- arxiv url: http://arxiv.org/abs/2103.04136v1
- Date: Sat, 6 Mar 2021 15:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:10:03.552115
- Title: Perception Framework through Real-Time Semantic Segmentation and Scene
Recognition on a Wearable System for the Visually Impaired
- Title(参考訳): 視覚障害者用ウェアラブルシステムにおけるリアルタイムセマンティックセグメンテーションとシーン認識による知覚フレームワーク
- Authors: Yingzhi Zhang, Haoye Chen, Kailun Yang, Jiaming Zhang, Rainer
Stiefelhagen
- Abstract要約: シーン解析および認識タスクのためのマルチタスク効率的な認識システムを提案する。
このシステムは、Intel RealSense LiDARカメラとNvidia Jetson AGX Xavierプロセッサを搭載したウェアラブルベルト上で動作する。
- 参考スコア(独自算出の注目度): 27.04316520914628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the scene information, including objectness and scene type, are important
for people with visual impairment, in this work we present a multi-task
efficient perception system for the scene parsing and recognition tasks.
Building on the compact ResNet backbone, our designed network architecture has
two paths with shared parameters. In the structure, the semantic segmentation
path integrates fast attention, with the aim of harvesting long-range
contextual information in an efficient manner. Simultaneously, the scene
recognition path attains the scene type inference by passing the semantic
features into semantic-driven attention networks and combining the semantic
extracted representations with the RGB extracted representations through a
gated attention module. In the experiments, we have verified the systems'
accuracy and efficiency on both public datasets and real-world scenes. This
system runs on a wearable belt with an Intel RealSense LiDAR camera and an
Nvidia Jetson AGX Xavier processor, which can accompany visually impaired
people and provide assistive scene information in their navigation tasks.
- Abstract(参考訳): 本研究は,視覚障害者にとって,対象性やシーンタイプなどのシーン情報が重要であるため,シーン解析・認識作業のためのマルチタスク効率的な認識システムを提案する。
コンパクトなResNetバックボーンをベースに、設計したネットワークアーキテクチャには、共有パラメータを持つ2つのパスがあります。
構造では、セマンティックセグメンテーションパスは、効率的な方法で長距離のコンテキスト情報の収穫を目的として、迅速な注意を統合します。
同時に、シーン認識パスは、セマンティック機能をセマンティック駆動の注意ネットワークに渡し、セマンティック抽出表現とゲートされた注意モジュールを介してRGB抽出表現を組み合わせることにより、シーンタイプの推論を達成する。
実験では,公開データセットと実世界のシーンの両方において,システムの精度と効率を検証した。
このシステムは、Intel RealSense LiDARカメラとNvidia Jetson AGX Xavierプロセッサを備えたウェアラブルベルトで動作し、視覚障害者を伴い、ナビゲーションタスクで補助的なシーン情報を提供する。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Open Scene Understanding: Grounded Situation Recognition Meets Segment
Anything for Helping People with Visual Impairments [23.673073261701226]
グラウンドドコンディション認識(GSR)は、文脈的に直感的に視覚的なシーンを認識し、解釈することができる。
関連エンティティの画素単位の高密度セグメンテーションマスクを生成することを目的としたOpen Scene Understanding (OpenSU)システムを提案する。
本モデルは,SWiGデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T09:41:27Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Closing the Loop: Graph Networks to Unify Semantic Objects and Visual
Features for Multi-object Scenes [2.236663830879273]
ループクロージャ検出(LCD)は、以前に訪れた場所を認識する際に、ドリフトを最小限に抑えるために必要である。
Visual Bag-of-Words (vBoW)は、多くの最先端SLAMシステムで選択されたLCDアルゴリズムである。
本稿では,セマンティックオブジェクトと視覚的特徴を共生的に統合する統合グラフ構造を構築するSymbioLCD2を提案する。
論文 参考訳(メタデータ) (2022-09-24T00:42:33Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。