論文の概要: InstaIndoor and Multi-modal Deep Learning for Indoor Scene Recognition
- arxiv url: http://arxiv.org/abs/2112.12409v1
- Date: Thu, 23 Dec 2021 08:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:40:33.954816
- Title: InstaIndoor and Multi-modal Deep Learning for Indoor Scene Recognition
- Title(参考訳): 屋内シーン認識のための屋内・マルチモーダル深層学習
- Authors: Andreea Glavan, Estefania Talavera
- Abstract要約: 本稿では,テキストと視覚的特徴の融合に基づくモデルを提案する。
我々のモデルは最大70%の精度と0.7F1スコアを達成する。
本研究の貢献が、屋内シーン認識の挑戦的な分野における新しい研究の道を開くことを願っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Indoor scene recognition is a growing field with great potential for
behaviour understanding, robot localization, and elderly monitoring, among
others. In this study, we approach the task of scene recognition from a novel
standpoint, using multi-modal learning and video data gathered from social
media. The accessibility and variety of social media videos can provide
realistic data for modern scene recognition techniques and applications. We
propose a model based on fusion of transcribed speech to text and visual
features, which is used for classification on a novel dataset of social media
videos of indoor scenes named InstaIndoor. Our model achieves up to 70%
accuracy and 0.7 F1-Score. Furthermore, we highlight the potential of our
approach by benchmarking on a YouTube-8M subset of indoor scenes as well, where
it achieves 74% accuracy and 0.74 F1-Score. We hope the contributions of this
work pave the way to novel research in the challenging field of indoor scene
recognition.
- Abstract(参考訳): 屋内シーン認識は,行動理解,ロボットのローカライゼーション,高齢者のモニタリングなどに大きな可能性を持つ成長分野である。
本研究では,ソーシャルメディアから収集したマルチモーダル学習と映像データを用いて,新たな視点からシーン認識の課題にアプローチする。
アクセシビリティと多様なソーシャルメディアビデオは、現代のシーン認識技術やアプリケーションのための現実的なデータを提供できる。
InstaIndoorという屋内シーンのソーシャルメディアビデオの新しいデータセットを分類するために,テキストと視覚的特徴への書き起こし音声の融合に基づくモデルを提案する。
我々のモデルは最大70%の精度と0.7F1スコアを達成する。
さらに,室内シーンのyoutube-8mサブセット上でベンチマークを行い,0.74 f1-scoreの精度と74%の精度を実現することで,このアプローチの可能性を強調した。
この研究の貢献が,屋内シーン認識の課題分野における新たな研究への道を開くことを願っている。
関連論文リスト
- ROOT: VLM based System for Indoor Scene Understanding and Beyond [83.71252153660078]
ROOTは、室内シーンの分析を強化するために設計されたVLMベースのシステムである。
rootnameは、屋内シーンの理解を促進し、3Dシーン生成や組み込みAIなど、さまざまな下流アプリケーションに有効であることを証明します。
論文 参考訳(メタデータ) (2024-11-24T04:51:24Z) - Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features [0.0]
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
論文 参考訳(メタデータ) (2023-12-06T08:58:11Z) - ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-07T20:50:54Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Deep learning for scene recognition from visual data: a survey [2.580765958706854]
この研究は、視覚データから深層学習モデルを用いて、シーン認識における最先端の技術をレビューすることを目的としている。
シーン認識は依然としてコンピュータビジョンの新たな分野であり、単一の画像と動的な画像の観点から対処されてきた。
論文 参考訳(メタデータ) (2020-07-03T16:53:18Z) - Indoor Scene Recognition in 3D [26.974703983293093]
既存のアプローチでは、2D画像や2.5Dレンジ画像に基づいてシーンを分類しようとする。
本稿では3Dポイントクラウド(またはボクセル)データからのシーン認識について検討する。
本研究では,2次元鳥眼の視線に基づく手法よりも優れることを示す。
論文 参考訳(メタデータ) (2020-02-28T15:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。