論文の概要: SegCodeNet: Color-Coded Segmentation Masks for Activity Detection from
Wearable Cameras
- arxiv url: http://arxiv.org/abs/2008.08452v1
- Date: Wed, 19 Aug 2020 14:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 12:10:28.392852
- Title: SegCodeNet: Color-Coded Segmentation Masks for Activity Detection from
Wearable Cameras
- Title(参考訳): segcodenet: ウェアラブルカメラからのアクティビティ検出のためのカラーコードセグメンテーションマスク
- Authors: Asif Shahriyar Sushmit, Partho Ghosh, Md.Abrar Istiak, Nayeeb Rashid,
Ahsan Habib Akash, Taufiq Hasan
- Abstract要約: 関連オブジェクトのカラーコードセマンティックセグメンテーションマスクを備えたビデオストリームを含むネットワークブランチを用いた2ストリームネットワークであるemphSegCodeNetを開発した。
オフィス環境における18ドルのアクティビティクラスを含むFPVデータセットで実験を行う。
- 参考スコア(独自算出の注目度): 1.4680035572775534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activity detection from first-person videos (FPV) captured using a wearable
camera is an active research field with potential applications in many sectors,
including healthcare, law enforcement, and rehabilitation. State-of-the-art
methods use optical flow-based hybrid techniques that rely on features derived
from the motion of objects from consecutive frames. In this work, we developed
a two-stream network, the \emph{SegCodeNet}, that uses a network branch
containing video-streams with color-coded semantic segmentation masks of
relevant objects in addition to the original RGB video-stream. We also include
a stream-wise attention gating that prioritizes between the two streams and a
frame-wise attention module that prioritizes the video frames that contain
relevant features. Experiments are conducted on an FPV dataset containing $18$
activity classes in office environments. In comparison to a single-stream
network, the proposed two-stream method achieves an absolute improvement of
$14.366\%$ and $10.324\%$ for averaged F1 score and accuracy, respectively,
when average results are compared for three different frame sizes
$224\times224$, $112\times112$, and $64\times64$. The proposed method provides
significant performance gains for lower-resolution images with absolute
improvements of $17\%$ and $26\%$ in F1 score for input dimensions of
$112\times112$ and $64\times64$, respectively. The best performance is achieved
for a frame size of $224\times224$ yielding an F1 score and accuracy of
$90.176\%$ and $90.799\%$ which outperforms the state-of-the-art Inflated 3D
ConvNet (I3D) \cite{carreira2017quo} method by an absolute margin of $4.529\%$
and $2.419\%$, respectively.
- Abstract(参考訳): ウェアラブルカメラで捉えたファーストパーソンビデオ(FPV)からのアクティビティ検出は、医療、法執行、リハビリテーションなど、多くの分野で応用される可能性のある、アクティブな研究分野である。
最先端の手法は、連続するフレームからの物体の動きに由来する特徴に依存する光フローベースのハイブリッド技術を用いる。
本研究では,RGBビデオストリームに加えて,関連オブジェクトのカラーコードセマンティックセマンティックセグメンテーションマスクを備えたビデオストリームを含むネットワークブランチを用いた2ストリームネットワーク「emph{SegCodeNet}」を開発した。
また,2つのストリーム間を優先するストリーム毎のアテンションゲーティングと,関連する機能を含むビデオフレームを優先するフレーム毎アテンションモジュールも備えています。
オフィス環境における18ドルのアクティビティクラスを含むFPVデータセットで実験を行う。
シングルストリームネットワークと比較して、提案手法は、平均F1スコアと精度でそれぞれ14.366\%と10.324\%の絶対的な改善を達成し、平均結果を3つの異なるフレームサイズで比較すると、24\times224$、12\times112$、64\times64$となる。
提案手法は, 入力次元が112\times112$と644\times64$に対して, 17\%$と26\%$を絶対的に改善した低解像度画像に対して, 顕著な性能向上を提供する。
最高性能は、フレームサイズが224\times224$であり、f1スコアと精度が90.176\%$と90.799\%$であり、それぞれ4.529\%$と2.419\%$という絶対マージンで最先端の3d convnet (i3d) \cite{carreira2017quo} 法を上回っている。
関連論文リスト
- VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow
Estimation [61.660040308290796]
VideoFlowはビデオのための新しい光フロー推定フレームワークである。
まず、TRiフレーム光フロー(TROF)モジュールを提案し、3フレーム方式で中央フレームの双方向光フローを推定する。
反復流量推定精細化により、個々のTROFに融合した情報をMOPを介して全シーケンスに伝播することができる。
論文 参考訳(メタデータ) (2023-03-15T03:14:30Z) - Semantic Segmentation for Autonomous Driving: Model Evaluation, Dataset
Generation, Perspective Comparison, and Real-Time Capability [0.0]
FasterSegは、自動運転車の低消費電力(組み込み)デバイスでリアルタイムに使用できるほど高速である。
1対1で320倍256$のインプットで、FasterSegは$65.44,%の平均インターセクション(mIoU)を達成した。
鳥の視線から320倍256ドルを入力するために、FasterSegは64.08,% mIoUを達成している。
論文 参考訳(メタデータ) (2022-07-26T14:45:44Z) - Focal Modulation Networks [105.93086472906765]
自己注意(SA)は完全に焦点変調ネットワーク(FocalNet)に置き換えられる
ImageNet-1Kの精度は82.3%、83.9%である。
FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
論文 参考訳(メタデータ) (2022-03-22T17:54:50Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Video Transformer Network [0.0]
本稿では,ビデオ認識のためのトランスフォーマーベースのフレームワークを提案する。
近年の視覚変換器の発展に触発されて、3D ConvNetに依存するビデオアクション認識の標準的アプローチを廃止する。
われわれのアプローチは汎用的で、任意の2次元空間ネットワーク上に構築されている。
論文 参考訳(メタデータ) (2021-02-01T09:29:10Z) - Masked Contrastive Representation Learning for Reinforcement Learning [202.8261654227565]
コントラスト学習を用いて個々のビデオフレームの原画素から高次特徴を抽出するCURLは,効率的なアルゴリズムである。
本稿では,連続した入力間の相関を考慮に入れたRLのための新しいアルゴリズム,マスク付きコントラスト表現学習を提案する。
DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。
論文 参考訳(メタデータ) (2020-10-15T02:00:10Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - Motion Representation Using Residual Frames with 3D CNN [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残留フレームに置き換えることで、トップ1の精度よりも35.6%と26.6%の改善点が得られる。
論文 参考訳(メタデータ) (2020-06-21T07:35:41Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。