Fugu-MT 論文翻訳(概要): SMART Frame Selection for Action Recognition

論文の概要: SMART Frame Selection for Action Recognition

arxiv url: http://arxiv.org/abs/2012.10671v1
Date: Sat, 19 Dec 2020 12:24:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-01 15:21:52.446381
Title: SMART Frame Selection for Action Recognition
Title（参考訳）: 行動認識のためのSMARTフレーム選択
Authors: Shreyank N Gowda, Marcus Rohrbach, Laura Sevilla-Lara
Abstract要約: 良いフレームを選択することは、トリミングされたビデオ領域でもアクション認識のパフォーマンスに役立ちます。本稿では,フレームの選択を一度に行うのではなく,共同で検討する手法を提案する。
参考スコア（独自算出の注目度）: 43.796505626453836
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Action recognition is computationally expensive. In this paper, we address the problem of frame selection to improve the accuracy of action recognition. In particular, we show that selecting good frames helps in action recognition performance even in the trimmed videos domain. Recent work has successfully leveraged frame selection for long, untrimmed videos, where much of the content is not relevant, and easy to discard. In this work, however, we focus on the more standard short, trimmed action recognition problem. We argue that good frame selection can not only reduce the computational cost of action recognition but also increase the accuracy by getting rid of frames that are hard to classify. In contrast to previous work, we propose a method that instead of selecting frames by considering one at a time, considers them jointly. This results in a more efficient selection, where good frames are more effectively distributed over the video, like snapshots that tell a story. We call the proposed frame selection SMART and we test it in combination with different backbone architectures and on multiple benchmarks (Kinetics, Something-something, UCF101). We show that the SMART frame selection consistently improves the accuracy compared to other frame selection strategies while reducing the computational cost by a factor of 4 to 10 times. Additionally, we show that when the primary goal is recognition performance, our selection strategy can improve over recent state-of-the-art models and frame selection strategies on various benchmarks (UCF101, HMDB51, FCVID, and ActivityNet).
Abstract（参考訳）: 動作認識は計算コストが高い。本稿では,アクション認識の精度を向上させるために,フレーム選択の問題に対処する。特に,優れたフレームの選択は,トリミングされたビデオ領域においても行動認識性能に寄与することを示す。最近の研究は、多くのコンテンツが関係なく、廃棄が容易な長いビデオに対して、フレーム選択の活用に成功している。しかし、本研究では、より標準的でトリミングされた行動認識問題に焦点を当てる。優れたフレーム選択は、行動認識の計算コストを削減できるだけでなく、分類が難しいフレームを除去することで精度を向上させることができると論じる。従来の研究とは対照的に,フレームの選択を一度に考えるのではなく,共同で考える手法を提案する。これにより、ストーリーを語るスナップショットなど、優れたフレームがビデオ上でより効果的に分散する、より効率的な選択が可能になる。提案したフレーム選択SMARTを,異なるバックボーンアーキテクチャと複数のベンチマーク(Kinetics, Something-something, UCF101)で組み合わせてテストする。 SMARTフレーム選択は,計算コストを4倍から10倍に削減しつつ,他のフレーム選択方法と比較して常に精度を向上することを示す。さらに,認識性能を第一の目標とする場合には,近年の最先端モデルや各種ベンチマーク(UCF101, HMDB51, FCVID, ActivityNet)のフレーム選択戦略よりも優れた選択戦略を実現できることを示す。

関連論文リスト

HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning [13.569944737211472]
ビデオ理解におけるキーフレーム選択は重要な課題である。フレームを独立にスコアする従来のトップK選択法は、選択全体を最適化するのに失敗することが多い。フレーム選択のためのエンドツーエンドのトレーニング可能なタスク適応フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-12T13:10:30Z)
FOCUS: Efficient Keyframe Selection for Long Video Understanding [26.44459739499484]
マルチモーダル大言語モデル(LMLM)は画像とビデオフレームを視覚トークンとして表現する。 FOCUS(Frame-Optimistic Confidence Upbound Selection)は、厳格なトークン予算の下でフレームを選択するモデルに依存しない選択モジュールである。 20分以上のビデオでは、LongVideoBenchingベンチマークで11.9%の精度向上を達成した。
論文参考訳（メタデータ） (2025-10-31T08:41:13Z)
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。 ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文参考訳（メタデータ） (2025-06-02T03:08:07Z)
An Empirical Study of Frame Selection for Text-to-Video Retrieval [62.28080029331507]
テキスト・ツー・ビデオ検索(TVR)は、クエリーテキストが与えられた大きなビデオギャラリーで最も関連性の高いビデオを見つけることを目的としている。既存の方法は通常、TVRのビデオコンテンツを表すためにビデオ内のフレームのサブセットを選択する。本稿では,TVRにおけるフレーム選択の実証的研究を行う。
論文参考訳（メタデータ） (2023-11-01T05:03:48Z)
Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-04-20T13:49:53Z)
PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。本手法は,UAV-Humanの2.2～13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文参考訳（メタデータ） (2023-04-14T00:01:11Z)
Towards Frame Rate Agnostic Multi-Object Tracking [76.82407173177138]
本稿では,FraMOT 問題に初めて取り組むために,FAPS を用いたフレームレート非依存MOT フレームワークを提案する。具体的には,フレームレート情報を推論し,符号化するフレームレートアグノスティックアソシエーションモジュール(FAAM)を提案する。 FAPSは、パターンマッチングと融合を追跡することによって、トレーニングにおけるすべての後処理ステップを反映する。
論文参考訳（メタデータ） (2022-09-23T04:25:19Z)
OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文参考訳（メタデータ） (2022-01-12T09:50:38Z)
Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文参考訳（メタデータ） (2020-02-15T13:14:10Z)
Sparse Black-box Video Attack with Reinforcement Learning [14.624074868199287]
ブラックボックスビデオ攻撃を強化学習フレームワークに定式化する。 RLの環境を認識モデルとし、RLのエージェントがフレーム選択の役割を果たす。我々は2つの主流ビデオ認識モデルを用いて一連の実験を行う。
論文参考訳（メタデータ） (2020-01-11T14:09:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。