論文の概要: Search-Map-Search: A Frame Selection Paradigm for Action Recognition
- arxiv url: http://arxiv.org/abs/2304.10316v1
- Date: Thu, 20 Apr 2023 13:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:03:40.589157
- Title: Search-Map-Search: A Frame Selection Paradigm for Action Recognition
- Title(参考訳): Search-Map-Search: 行動認識のためのフレーム選択パラダイム
- Authors: Mingjun Zhao, Yakun Yu, Xiaoli Wang, Lei Yang and Di Niu
- Abstract要約: フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 21.395733318164393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of deep learning in video understanding tasks, processing
every frame in a video is computationally expensive and often unnecessary in
real-time applications. Frame selection aims to extract the most informative
and representative frames to help a model better understand video content.
Existing frame selection methods either individually sample frames based on
per-frame importance prediction, without considering interaction among frames,
or adopt reinforcement learning agents to find representative frames in
succession, which are costly to train and may lead to potential stability
issues. To overcome the limitations of existing methods, we propose a
Search-Map-Search learning paradigm which combines the advantages of heuristic
search and supervised learning to select the best combination of frames from a
video as one entity. By combining search with learning, the proposed method can
better capture frame interactions while incurring a low inference overhead.
Specifically, we first propose a hierarchical search method conducted on each
training video to search for the optimal combination of frames with the lowest
error on the downstream task. A feature mapping function is then learned to map
the frames of a video to the representation of its target optimal frame
combination. During inference, another search is performed on an unseen video
to select a combination of frames whose feature representation is close to the
projected feature representation. Extensive experiments based on several action
recognition benchmarks demonstrate that our frame selection method effectively
improves performance of action recognition models, and significantly
outperforms a number of competitive baselines.
- Abstract(参考訳): ビデオ理解タスクにおけるディープラーニングの成功にもかかわらず、ビデオ内のすべてのフレームの処理は計算コストが高く、多くの場合、リアルタイムアプリケーションでは不要である。
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択手法では、フレーム毎の重要度予測に基づいて個別にフレームをサンプリングするか、フレーム間のインタラクションを考慮せずに強化学習エージェントを採用して、トレーニングにコストがかかり、潜在的な安定性の問題を引き起こす可能性がある。
既存の手法の限界を克服するために,ヒューリスティック検索と教師付き学習の利点を組み合わせた検索マップ探索学習パラダイムを提案し,ビデオから最適なフレームの組み合わせを1つのエンティティとして選択する。
検索と学習を組み合わせることで,提案手法は,低推論オーバーヘッドを伴いながら,フレーム間インタラクションをよりよく捉えることができる。
具体的には,まず,各学習映像上で階層的探索を行い,下流課題において最も誤差の少ないフレームの最適組み合わせを探索する手法を提案する。
その後、特徴マッピング関数が学習され、対象とする最適なフレームの組み合わせの表現にビデオのフレームをマッピングする。
推論中、未発見の動画上で別の検索を行い、特徴表現が投影された特徴表現に近いフレームの組み合わせを選択する。
複数のアクション認識ベンチマークに基づく広範囲な実験により、フレーム選択法がアクション認識モデルの性能を効果的に改善し、多くの競合ベースラインを上回ることを示した。
関連論文リスト
- An Empirical Comparison of Video Frame Sampling Methods for Multi-Modal RAG Retrieval [1.6581184950812533]
自然言語質問を用いたビデオ・フレーム検索におけるフレームサンプリング手法のトレードオフについて検討する。
本稿では,ビデオRAGパターンが必要とするベクトルデータベース内の画像データ(ビデオフレーム)の保存と検索に焦点を当てた。
論文 参考訳(メタデータ) (2024-07-22T11:44:08Z) - End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling [43.024232182899354]
そこで我々は,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。
本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。
広く採用されている3つのベンチマークによる実験結果から,我々のモデルは既存のビデオQA手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-07-21T04:09:37Z) - An Empirical Study of Frame Selection for Text-to-Video Retrieval [62.28080029331507]
テキスト・ツー・ビデオ検索(TVR)は、クエリーテキストが与えられた大きなビデオギャラリーで最も関連性の高いビデオを見つけることを目的としている。
既存の方法は通常、TVRのビデオコンテンツを表すためにビデオ内のフレームのサブセットを選択する。
本稿では,TVRにおけるフレーム選択の実証的研究を行う。
論文 参考訳(メタデータ) (2023-11-01T05:03:48Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - SMART Frame Selection for Action Recognition [43.796505626453836]
良いフレームを選択することは、トリミングされたビデオ領域でもアクション認識のパフォーマンスに役立ちます。
本稿では,フレームの選択を一度に行うのではなく,共同で検討する手法を提案する。
論文 参考訳(メタデータ) (2020-12-19T12:24:00Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。