論文の概要: Video Scene Location Recognition with Neural Networks
- arxiv url: http://arxiv.org/abs/2309.11928v1
- Date: Thu, 21 Sep 2023 09:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:01:11.928017
- Title: Video Scene Location Recognition with Neural Networks
- Title(参考訳): ニューラルネットワークによる映像シーン位置認識
- Authors: Luk\'a\v{s} Korel, Petr Pulc, Ji\v{r}\'i Tumpach, and Martin
Hole\v{n}a
- Abstract要約: 本稿では,連続する撮影箇所の少ない映像系列からのシーン認識の可能性について考察する。
提案手法の基本的な考え方は、各シーンからフレームのセットを選択し、トレーニング済みの単一イメージ前処理畳み込みネットワークでそれらを変換し、その後のニューラルネットワークの層とシーンの位置を分類することである。
我々は、個々のフレーム、特にAveragePooling、MaxPooling、Product、Flatten、LSTM、Bidirectional LSTMレイヤを組み合わせるために、異なるニューラルネットワーク層を調査した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper provides an insight into the possibility of scene recognition from
a video sequence with a small set of repeated shooting locations (such as in
television series) using artificial neural networks. The basic idea of the
presented approach is to select a set of frames from each scene, transform them
by a pre-trained singleimage pre-processing convolutional network, and classify
the scene location with subsequent layers of the neural network. The considered
networks have been tested and compared on a dataset obtained from The Big Bang
Theory television series. We have investigated different neural network layers
to combine individual frames, particularly AveragePooling, MaxPooling, Product,
Flatten, LSTM, and Bidirectional LSTM layers. We have observed that only some
of the approaches are suitable for the task at hand.
- Abstract(参考訳): 本稿では, ニューラルネットワークを用いて, 連続した撮影場所(テレビシリーズなど)を連続して持つ映像系列からのシーン認識の可能性について考察する。
提案手法の基本的な考え方は、各シーンから一連のフレームを選択し、事前訓練された単一画像プリプロセッシング畳み込みネットワークに変換し、シーンの位置をニューラルネットワークの次のレイヤに分類することである。
検討されたネットワークは、big bang theory televisionシリーズから得られたデータセットでテストされ、比較されている。
我々は、個々のフレーム、特にAveragePooling、MaxPooling、Product、Flatten、LSTM、Bidirectional LSTMレイヤを組み合わせるために、異なるニューラルネットワーク層を調査した。
現状の課題に適しているのは,いくつかのアプローチのみである。
関連論文リスト
- Image segmentation with traveling waves in an exactly solvable recurrent
neural network [71.74150501418039]
繰り返しニューラルネットワークは、シーンの構造特性に応じて、画像をグループに効果的に分割できることを示す。
本稿では,このネットワークにおけるオブジェクトセグメンテーションのメカニズムを正確に記述する。
次に、グレースケール画像中の単純な幾何学的対象から自然画像まで、入力をまたいで一般化するオブジェクトセグメンテーションの簡単なアルゴリズムを実証する。
論文 参考訳(メタデータ) (2023-11-28T16:46:44Z) - Live American Sign Language Letter Classification with Convolutional
Neural Networks [4.920817773181234]
このプロジェクトは、特にライブビデオフィードの範囲内で、画像中のASL文字を認識できるニューラルネットワークの構築を中心にしている。
畳み込みネットワークとVGG16転送学習アプローチが異なるバックグラウンド設定で一般化できなかった場合、最初のテスト結果は期待に届かなかった。
その後、トレーニング済みの手関節検出モデルが採用され、生成された関節位置が完全に接続されたニューラルネットワークに入力される。
論文 参考訳(メタデータ) (2023-05-26T18:29:33Z) - JSRNN: Joint Sampling and Reconstruction Neural Networks for High
Quality Image Compressed Sensing [8.902545322578925]
提案フレームワークには,サンプリングサブネットワークと再構築サブネットワークという2つのサブネットワークが含まれている。
再構成サブネットワークでは、スタックド・デノイング・オートエンコーダ(SDA)と畳み込みニューラルネットワーク(CNN)を組み合わせたカスケードネットワークが信号の再構成のために設計されている。
このフレームワークは、特にサンプリングレートの低い他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-11T02:20:30Z) - Weakly-supervised fire segmentation by visualizing intermediate CNN
layers [82.75113406937194]
画像やビデオにおける火の局所化は、火災事故に対処するための自律システムにとって重要なステップである。
我々は,ネットワークのトレーニングに画像ラベルのみを使用する,画像中の火の弱い制御セグメント化について検討する。
CNNの中間層における特徴量の平均値は,2値セグメンテーション問題である火災セグメンテーションの場合,従来のクラスアクティベーションマッピング(CAM)法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-16T11:56:28Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - A Greedy Algorithm for Quantizing Neural Networks [4.683806391173103]
本稿では,事前学習したニューラルネットワークの重みを定量化するための計算効率のよい新しい手法を提案する。
本手法は,複雑な再学習を必要とせず,反復的に層を定量化する手法である。
論文 参考訳(メタデータ) (2020-10-29T22:53:10Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - TRANSPR: Transparency Ray-Accumulating Neural 3D Scene Point Renderer [6.320273914694594]
本稿では,半透明シーンをモデル化可能なニューラルポイントベースグラフィックス手法を提案し,評価する。
半透明な点雲のシーンの新たなビューは、我々のアプローチでトレーニングした後に生成できることを示す。
論文 参考訳(メタデータ) (2020-09-06T21:19:18Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Audio-video Emotion Recognition in the Wild using Deep Hybrid Networks [6.151486024920938]
実験の結果,提案したハイブリッドネットワークはベースライン法よりも大きなマージンで優れていた。
畳み込みニューラルネットワーク(CNN)とリカレントニュートラネット(RNN)が顔画像で訓練されるのに加え、ハイブリッドネットワークは、全体音響特徴ベクトルで訓練された1つのSVM分類器、短期特徴系列で訓練された1つの長期記憶ネットワーク(LSTM)、イメージライクな地図で訓練された1つのInception(v2)-LSTMネットワークを含む。
論文 参考訳(メタデータ) (2020-02-20T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。