論文の概要: Colar: Effective and Efficient Online Action Detection by Consulting
Exemplars
- arxiv url: http://arxiv.org/abs/2203.01057v1
- Date: Wed, 2 Mar 2022 12:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 15:39:55.837238
- Title: Colar: Effective and Efficient Online Action Detection by Consulting
Exemplars
- Title(参考訳): colar: コンサルタントによる効果的なオンラインアクション検出
- Authors: Le Yang, Junwei Han, Dingwen Zhang
- Abstract要約: 本研究では,まずフレームと模範フレームの類似度を計測し,その類似度重みに基づいて模範特徴を集約する,効果的な模範解釈機構を開発する。
カテゴリレベルのモデリングの相補性のため,本手法は軽量なアーキテクチャを採用しているが,3つのベンチマークで新たなハイパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 102.28515426925621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online action detection has attracted increasing research interests in recent
years. Current works model historical dependencies and anticipate future to
perceive the action evolution within a video segment and improve the detection
accuracy. However, the existing paradigm ignores category-level modeling and
does not pay sufficient attention to efficiency. Considering a category, its
representative frames exhibit various characteristics. Thus, the category-level
modeling can provide complementary guidance to the temporal dependencies
modeling. In this paper, we develop an effective exemplar-consultation
mechanism that first measures the similarity between a frame and exemplary
frames, and then aggregates exemplary features based on the similarity weights.
This is also an efficient mechanism as both similarity measurement and feature
aggregation require limited computations. Based on the exemplar-consultation
mechanism, the long-term dependencies can be captured by regarding historical
frames as exemplars, and the category-level modeling can be achieved by
regarding representative frames from a category as exemplars. Due to the
complementarity from the category-level modeling, our method employs a
lightweight architecture but achieves new high performance on three benchmarks.
In addition, using a spatio-temporal network to tackle video frames, our method
spends 9.8 seconds to dispose of a one-minute video and achieves comparable
performance.
- Abstract(参考訳): オンライン行動検出は近年研究の関心を惹きつけている。
現在のワークモデル 過去の依存関係をモデル化し、ビデオセグメント内のアクションの進化を知覚し、検出精度を向上させる未来を予測している。
しかし、既存のパラダイムはカテゴリレベルのモデリングを無視し、効率に十分な注意を払っていない。
カテゴリを考えると、その代表フレームには様々な特徴がある。
したがって、カテゴリレベルのモデリングは、時間依存モデリングに対する補完的なガイダンスを提供することができる。
本稿では,まずフレームと模範フレームの類似度を計測し,その類似度重みに基づいて模範特徴を集約する,効果的な模範解釈機構を開発する。
これはまた、類似度測定と特徴集約の両方が限られた計算を必要とするため、効率的なメカニズムである。
模範解釈機構に基づき, 歴史的フレームを模範として, 長期的依存関係を捉えることができ, カテゴリーレベルのモデリングを模範として代表フレームを模範として行うことができる。
カテゴリレベルのモデリングの相補性から,提案手法は軽量アーキテクチャを採用しているが,3つのベンチマークで新たなハイパフォーマンスを実現する。
さらに, 時空間ネットワークを用いてビデオフレームに対処し, 1分間のビデオの処理に9.8秒を要し, 同等の性能を実現する。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Memory Group Sampling Based Online Action Recognition Using Kinetic
Skeleton Features [4.674689979981502]
本稿では,オンライン行動認識問題を扱うための2つの中核的アイデアを提案する。
まず, 空間的特徴と時間的特徴を組み合わせることで, 行動の描写を行う。
次に,従来の動作フレームと現在の動作フレームを組み合わせたメモリグループサンプリング手法を提案する。
第3に、改良された1D CNNネットワークを使用して、サンプルフレームの機能をトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-11-01T16:43:08Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。