論文の概要: GTM: Gray Temporal Model for Video Recognition
- arxiv url: http://arxiv.org/abs/2110.10348v1
- Date: Wed, 20 Oct 2021 02:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:07:41.724206
- Title: GTM: Gray Temporal Model for Video Recognition
- Title(参考訳): GTM:映像認識のための灰色の時間モデル
- Authors: Yanping Zhang, Yongxin Yu
- Abstract要約: ビデオからRGBへの変換プロセスをスキップできるが、チャネル時間モデリングの能力も向上する。
また,計算予算内でのチャネル機能レベルでの時間的関係をキャプチャする1D単位の時空間畳み込み(1D-ICSC)を提案する。
- 参考スコア(独自算出の注目度): 2.534039616389072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data input modality plays an important role in video action recognition.
Normally, there are three types of input: RGB, flow stream and compressed data.
In this paper, we proposed a new input modality: gray stream. Specifically,
taken the stacked consecutive 3 gray images as input, which is the same size of
RGB, can not only skip the conversion process from video decoding data to RGB,
but also improve the spatio-temporal modeling ability at zero computation and
zero parameters. Meanwhile, we proposed a 1D Identity Channel-wise
Spatio-temporal Convolution(1D-ICSC) which captures the temporal relationship
at channel-feature level within a controllable computation budget(by parameters
G & R). Finally, we confirm its effectiveness and efficiency on several action
recognition benchmarks, such as Kinetics, Something-Something, HMDB-51 and
UCF-101, and achieve impressive results.
- Abstract(参考訳): データ入力モダリティは、ビデオアクション認識において重要な役割を果たす。
通常、入力にはrgb、フローストリーム、圧縮データという3つのタイプがある。
本稿では,新しい入力モダリティであるグレーストリームを提案する。
具体的には、rgbと同じ大きさの入力としてスタックされた3つのグレー画像を取ることで、ビデオデコーディングデータからrgbへの変換プロセスをスキップできるだけでなく、ゼロ計算とゼロパラメータでの時空間モデリング能力を向上させることができる。
一方,制御可能な計算予算(パラメータG&R)内で,チャネル機能レベルでの時間的関係をキャプチャする1D Identity Channel-wise Spatio-temporal Convolution(1D-ICSC)を提案する。
最後に,Kineetics, something-Something, HMDB-51, UCF-101 などの動作認識ベンチマークの有効性と効率を確認し,優れた結果を得た。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video
Recognition [43.52320791818535]
TSCFormer と呼ばれる新しい RGB-Event ベースの認識フレームワークを提案する。
主に、バックボーンネットワークとしてCNNを採用し、まずRGBとイベントデータをエンコードします。
両方のモダリティの間のグローバルな長距離関係をうまく捉え、モデルアーキテクチャ全体の単純さを維持します。
論文 参考訳(メタデータ) (2023-12-18T11:58:03Z) - Fine-Grained Action Detection with RGB and Pose Information using Two
Stream Convolutional Networks [1.4502611532302039]
本稿では,テーブルテニスストロークの分類と検出のための2ストリームネットワークアプローチを提案する。
提案手法は生のRGBデータを利用して,MMPoseツールボックスから計算した情報をポーズする。
我々は脳卒中分類の改善を報告でき、精度は87.3%に達し、検出はベースラインを上回りつつも0.349のIoUと0.110のmAPに到達している。
論文 参考訳(メタデータ) (2023-02-06T13:05:55Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Motion Representation Using Residual Frames with 3D CNN [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残留フレームに置き換えることで、トップ1の精度よりも35.6%と26.6%の改善点が得られる。
論文 参考訳(メタデータ) (2020-06-21T07:35:41Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。