論文の概要: Online Learnable Keyframe Extraction in Videos and its Application with
Semantic Word Vector in Action Recognition
- arxiv url: http://arxiv.org/abs/2009.12434v1
- Date: Fri, 25 Sep 2020 20:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 23:06:26.437196
- Title: Online Learnable Keyframe Extraction in Videos and its Application with
Semantic Word Vector in Action Recognition
- Title(参考訳): ビデオにおけるオンライン学習可能なキーフレーム抽出とセマンティックワードベクトルによる行動認識への応用
- Authors: G M Mashrur E Elahi, Yee-Hong Yang
- Abstract要約: ビデオ中のキーショットを抽出するためのオンライン学習可能なモジュールを提案する。
このモジュールはビデオ内のキーショットを選択できるため、ビデオ要約にも適用できる。
また、セマンティックワードベクトルを入力として使用するプラグインモジュールと、分類モデルのための新しいトレイン/テスト戦略を提案する。
- 参考スコア(独自算出の注目度): 5.849485167287474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video processing has become a popular research direction in computer vision
due to its various applications such as video summarization, action
recognition, etc. Recently, deep learning-based methods have achieved
impressive results in action recognition. However, these methods need to
process a full video sequence to recognize the action, even though most of
these frames are similar and non-essential to recognizing a particular action.
Additionally, these non-essential frames increase the computational cost and
can confuse a method in action recognition. Instead, the important frames
called keyframes not only are helpful in the recognition of an action but also
can reduce the processing time of each video sequence for classification or in
other applications, e.g. summarization. As well, current methods in video
processing have not yet been demonstrated in an online fashion.
Motivated by the above, we propose an online learnable module for keyframe
extraction. This module can be used to select key-shots in video and thus can
be applied to video summarization. The extracted keyframes can be used as input
to any deep learning-based classification model to recognize action. We also
propose a plugin module to use the semantic word vector as input along with
keyframes and a novel train/test strategy for the classification models. To our
best knowledge, this is the first time such an online module and train/test
strategy have been proposed.
The experimental results on many commonly used datasets in video
summarization and in action recognition have shown impressive results using the
proposed module.
- Abstract(参考訳): 映像処理は、映像要約や行動認識などの様々な応用により、コンピュータビジョンにおける一般的な研究方向となっている。
近年,深層学習に基づく手法が行動認識において顕著な成果を上げている。
しかし、これらの手法は、ほとんどのフレームが特定のアクションを認識するのに似ていて必要ではないにもかかわらず、アクションを認識するために完全なビデオシーケンスを処理する必要がある。
さらに、これらの非必須フレームは計算コストを増大させ、動作認識においてメソッドを混乱させることができる。
代わりに、キーフレームと呼ばれる重要なフレームは、アクションの認識だけでなく、分類や要約などの他のアプリケーションにおける各ビデオシーケンスの処理時間を短縮することができる。
また、ビデオ処理の現在の手法はまだオンライン方式では実証されていない。
本稿では,キーフレーム抽出のためのオンライン学習モジュールを提案する。
このモジュールはビデオ中のキーショットの選択に使用することができ、ビデオ要約に適用することができる。
抽出されたキーフレームは、深層学習に基づく分類モデルの入力として使用でき、アクションを認識することができる。
また,セマンティクスワードベクトルを入力として使用するプラグインモジュールとキーフレーム,分類モデルのための新しいトレイン/テスト戦略を提案する。
私たちの知る限りでは、このようなオンラインモジュールとトレーニング/テスト戦略が提案されたのは今回が初めてです。
ビデオ要約や行動認識においてよく使われる多くのデータセットに対する実験結果から,提案モジュールを用いた印象的な結果が得られた。
関連論文リスト
- Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文 参考訳(メタデータ) (2023-06-21T15:09:37Z) - Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-20T13:49:53Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - An Integrated Approach for Video Captioning and Applications [2.064612766965483]
ビデオのキャプションにより、長いビデオに適用するためのハイブリッドなディープラーニングアーキテクチャを設計する。
我々は、画像、ビデオ、自然言語をリンクすることは、多くの実用的な利点と即時的な実践的応用をもたらすと論じている。
論文 参考訳(メタデータ) (2022-01-23T01:06:00Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。