論文の概要: Recognizing Video Events with Varying Rhythms
- arxiv url: http://arxiv.org/abs/2001.05060v1
- Date: Tue, 14 Jan 2020 22:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 13:02:03.516525
- Title: Recognizing Video Events with Varying Rhythms
- Title(参考訳): Varying Rhythmsによるビデオイベントの認識
- Authors: Yikang Li, Tianshu Yu, Baoxin Li
- Abstract要約: 動作リズムの異なる長大かつ複雑な事象を認識することの問題点について検討する。
私たちの研究は、人間が様々なリズムでイベントを識別する方法にインスパイアされています。
本稿では,第1段階が最も重要なフレームを選択する2段階のエンペンド・ツー・エンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.317374512823154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing Video events in long, complex videos with multiple sub-activities
has received persistent attention recently. This task is more challenging than
traditional action recognition with short, relatively homogeneous video clips.
In this paper, we investigate the problem of recognizing long and complex
events with varying action rhythms, which has not been considered in the
literature but is a practical challenge. Our work is inspired in part by how
humans identify events with varying rhythms: quickly catching frames
contributing most to a specific event. We propose a two-stage \emph{end-to-end}
framework, in which the first stage selects the most significant frames while
the second stage recognizes the event using the selected frames. Our model
needs only \emph{event-level labels} in the training stage, and thus is more
practical when the sub-activity labels are missing or difficult to obtain. The
results of extensive experiments show that our model can achieve significant
improvement in event recognition from long videos while maintaining high
accuracy even if the test videos suffer from severe rhythm changes. This
demonstrates the potential of our method for real-world video-based
applications, where test and training videos can differ drastically in rhythms
of sub-activities.
- Abstract(参考訳): 複数のサブアクティビティを持つ長い複雑なビデオにおけるビデオイベントの認識は、最近、絶え間ない注目を集めている。
このタスクは、短い、比較的均質なビデオクリップによる従来のアクション認識よりも難しい。
本稿では,文献では考慮されていないが実用上の課題である,行動リズムの異なる長時間かつ複雑な事象を認識できる問題について検討する。
私たちの研究は、人間がさまざまなリズムでイベントを識別する方法に触発されています。
本稿では,第1段階が最も重要なフレームを選択し,第2段階が選択したフレームを用いてイベントを認識する2段階のemph{end-to-end}フレームワークを提案する。
我々のモデルはトレーニング段階ではemph{event-level label} のみを必要とするため、サブアクティビティラベルが欠落している場合や入手が困難である場合には、より実用的なものとなる。
実験結果から,テストビデオが過度なリズム変化に悩まされても,高い精度を維持しつつ,長いビデオからのイベント認識を大幅に改善できることが示唆された。
本研究は,テストとトレーニングがサブアクティビティのリズムで大きく異なる実世界のビデオベースアプリケーションの可能性を示すものである。
関連論文リスト
- Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。