論文の概要: Open Scene Understanding: Grounded Situation Recognition Meets Segment
Anything for Helping People with Visual Impairments
- arxiv url: http://arxiv.org/abs/2307.07757v1
- Date: Sat, 15 Jul 2023 09:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 17:58:34.294999
- Title: Open Scene Understanding: Grounded Situation Recognition Meets Segment
Anything for Helping People with Visual Impairments
- Title(参考訳): open scene understanding: 視覚障害のある人を助けるために、接地状況認識がセグメントを満たしている
- Authors: Ruiping Liu, Jiaming Zhang, Kunyu Peng, Junwei Zheng, Ke Cao, Yufan
Chen, Kailun Yang, Rainer Stiefelhagen
- Abstract要約: グラウンドドコンディション認識(GSR)は、文脈的に直感的に視覚的なシーンを認識し、解釈することができる。
関連エンティティの画素単位の高密度セグメンテーションマスクを生成することを目的としたOpen Scene Understanding (OpenSU)システムを提案する。
本モデルは,SWiGデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 23.673073261701226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded Situation Recognition (GSR) is capable of recognizing and
interpreting visual scenes in a contextually intuitive way, yielding salient
activities (verbs) and the involved entities (roles) depicted in images. In
this work, we focus on the application of GSR in assisting people with visual
impairments (PVI). However, precise localization information of detected
objects is often required to navigate their surroundings confidently and make
informed decisions. For the first time, we propose an Open Scene Understanding
(OpenSU) system that aims to generate pixel-wise dense segmentation masks of
involved entities instead of bounding boxes. Specifically, we build our OpenSU
system on top of GSR by additionally adopting an efficient Segment Anything
Model (SAM). Furthermore, to enhance the feature extraction and interaction
between the encoder-decoder structure, we construct our OpenSU system using a
solid pure transformer backbone to improve the performance of GSR. In order to
accelerate the convergence, we replace all the activation functions within the
GSR decoders with GELU, thereby reducing the training duration. In quantitative
analysis, our model achieves state-of-the-art performance on the SWiG dataset.
Moreover, through field testing on dedicated assistive technology datasets and
application demonstrations, the proposed OpenSU system can be used to enhance
scene understanding and facilitate the independent mobility of people with
visual impairments. Our code will be available at
https://github.com/RuipingL/OpenSU.
- Abstract(参考訳): 接地状況認識(GSR)は、視覚的シーンを文脈的に直感的に認識し、解釈することができ、画像に描かれた健全な活動(動詞)と関連する実体(ロール)をもたらす。
本稿では,視覚障害者(pvi)支援におけるgsrの活用について考察する。
しかし、検出された物体の正確な位置決め情報は、その周囲を確実にナビゲートし、情報的な決定を下すためにしばしば必要とされる。
ボックス境界ではなく,関連するエンティティのピクセル単位の高密度セグメンテーションマスクを生成することを目的としたOpen Scene Understanding (OpenSU)システムを提案する。
具体的には,GSR上にOpenSUシステムを構築し,Segment Anything Model (SAM) を有効活用する。
さらに,エンコーダ-デコーダ構造間の特徴抽出と相互作用を向上させるため,GSRの性能向上のために,固体トランスフォーマーバックボーンを用いたOpenSUシステムを構築した。
収束を加速するため、GSRデコーダ内の全てのアクティベーション機能をGELUに置き換え、トレーニング期間を短縮する。
定量的解析では,SWiGデータセット上での最先端性能を実現する。
さらに、専用の補助技術データセットのフィールドテストやアプリケーションデモを通じて、視覚障害者のシーン理解を強化し、独立したモビリティを促進するために、提案するOpenSUシステムを利用することができる。
私たちのコードはhttps://github.com/RuipingL/OpenSUで公開されます。
関連論文リスト
- REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - Visual In-Context Prompting [100.93587329049848]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。
エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。
広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:48Z) - MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily
Behavior Recognition in Group Settings [9.185580170954802]
本稿では,ビデオから抽出した特徴と対応する離散コサイン変換係数を変換器を用いたアプローチで組み合わせた多視点アテンション融合法MAGIC-TBRを提案する。
BBSIデータセットを用いて実験を行い,提案手法の有効性について検討した。
論文 参考訳(メタデータ) (2023-09-19T17:04:36Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Scalable Perception-Action-Communication Loops with Convolutional and
Graph Neural Networks [208.15591625749272]
視覚に基づくグラフアグリゲーション・アンド・推論(VGAI)を用いた知覚-行動-コミュニケーションループの設計を提案する。
我々のフレームワークは、畳み込みとグラフニューラルネットワーク(CNN/GNN)のカスケードによって実装され、エージェントレベルの視覚知覚と特徴学習に対処する。
我々は、VGAIが他の分散コントローラに匹敵する性能を得ることを示した。
論文 参考訳(メタデータ) (2021-06-24T23:57:21Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Perception Framework through Real-Time Semantic Segmentation and Scene
Recognition on a Wearable System for the Visually Impaired [27.04316520914628]
シーン解析および認識タスクのためのマルチタスク効率的な認識システムを提案する。
このシステムは、Intel RealSense LiDARカメラとNvidia Jetson AGX Xavierプロセッサを搭載したウェアラブルベルト上で動作する。
論文 参考訳(メタデータ) (2021-03-06T15:07:17Z) - Active Visual Localization in Partially Calibrated Environments [35.48595012305253]
人間は、目立った視覚的な手がかりやランドマークに追われて地図を使わずに、自分自身をしっかりとローカライズすることができる。
この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。
このような能力はロボットアプリケーションにおいて重要であるが、エージェントが部分的に調整された環境に晒される場合、非常に困難である。
合成データと実データの両方で構成された屋内シーンデータセットACR-6を提案し、アクティブビジュアルローカリゼーションのための困難なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2020-12-08T08:00:55Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。