論文の概要: Annotation-Efficient Untrimmed Video Action Recognition
- arxiv url: http://arxiv.org/abs/2011.14478v2
- Date: Tue, 20 Apr 2021 08:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:50:43.541194
- Title: Annotation-Efficient Untrimmed Video Action Recognition
- Title(参考訳): アノテーション効率のよいビデオ行動認識
- Authors: Yixiong Zou, Shanghang Zhang, Guangyao Chen, Yonghong Tian, Kurt
Keutzer, Jos\'e M. F. Moura
- Abstract要約: 我々は、大量のサンプルとアクションロケーションの両方に対するアノテーションの要求を減らすことを目指している。
BGの特性を解析することにより、BGを情報的BG(IBG)と非情報的BG(NBG)に分類する。
我々は,(1)NBGとFGを見つけるためのオープンセット検出法,(2)IBGを学習し,NBGを自己監督的に識別するコントラスト学習法,(3)IBGとFGをよりよく区別するための自己重み付け機構を提案する。
- 参考スコア(独自算出の注目度): 42.25674012653663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has achieved great success in recognizing video actions, but
the collection and annotation of training data are still quite laborious, which
mainly lies in two aspects: (1) the amount of required annotated data is large;
(2) temporally annotating the location of each action is time-consuming. Works
such as few-shot learning or untrimmed video recognition have been proposed to
handle either one aspect or the other. However, very few existing works can
handle both issues simultaneously. In this paper, we target a new problem,
Annotation-Efficient Video Recognition, to reduce the requirement of
annotations for both large amount of samples and the action location. Such
problem is challenging due to two aspects: (1) the untrimmed videos only have
weak supervision; (2) video segments not relevant to current actions of
interests (background, BG) could contain actions of interests (foreground, FG)
in novel classes, which is a widely existing phenomenon but has rarely been
studied in few-shot untrimmed video recognition. To achieve this goal, by
analyzing the property of BG, we categorize BG into informative BG (IBG) and
non-informative BG (NBG), and we propose (1) an open-set detection based method
to find the NBG and FG, (2) a contrastive learning method to learn IBG and
distinguish NBG in a self-supervised way, and (3) a self-weighting mechanism
for the better distinguishing of IBG and FG. Extensive experiments on
ActivityNet v1.2 and ActivityNet v1.3 verify the rationale and effectiveness of
the proposed methods.
- Abstract(参考訳): 深層学習はビデオ行動の認識において大きな成功を収めてきたが、トレーニングデータの収集とアノテーションは、主に、(1)必要な注釈付きデータの量が大きい、(2)各アクションの位置を時間的にアノテートする、という2つの側面に大きく依存している。
数発学習や未撮影の映像認識といった作品は、どちらか一方の側面を扱うために提案されている。
しかし、両方の問題を同時に処理できる既存の作品はほとんどない。
本稿では,大量のサンプルとアクションロケーションの両方に対するアノテーションの必要量を削減するために,アノテーション効率の高いビデオ認識という新たな課題をターゲットにする。
これらの問題は,(1)未トリミング映像が弱い監督しか持たない,(2)現在の興味の行動(背景,bg)に関係のない映像セグメントは,新規なクラスにおいて興味の行動(フォアグラウンド,fg)を含む可能性がある,という2つの側面から困難である。
この目的を達成するために,BGの特性を解析することにより,BGを情報的BG(IBG)と非情報的BG(NBG)に分類し,(1)NBGとFGを見つけるためのオープンセット検出ベース手法を提案する。
ActivityNet v1.2とActivityNet v1.3の広範な実験は、提案手法の理論的および有効性を検証する。
関連論文リスト
- Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。