Fugu-MT 論文翻訳(概要): FrameExit: Conditional Early Exiting for Efficient Video Recognition

論文の概要: FrameExit: Conditional Early Exiting for Efficient Video Recognition

arxiv url: http://arxiv.org/abs/2104.13400v1
Date: Tue, 27 Apr 2021 18:01:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-29 22:42:07.497022
Title: FrameExit: Conditional Early Exiting for Efficient Video Recognition
Title（参考訳）: FrameExit:効率的なビデオ認識のための条件付き早期出力
Authors: Amir Ghodrati, Babak Ehteshami Bejnordi, Amirhossein Habibian
Abstract要約: 効率的なビデオ認識のための条件付き早期終了フレームワークを提案する。私たちのモデルは、単純なビデオのフレーム数を減らし、複雑なビデオのフレーム数を増やすことを学びます。提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。
参考スコア（独自算出の注目度）: 11.92976432364216
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a conditional early exiting framework for efficient video recognition. While existing works focus on selecting a subset of salient frames to reduce the computation costs, we propose to use a simple sampling strategy combined with conditional early exiting to enable efficient recognition. Our model automatically learns to process fewer frames for simpler videos and more frames for complex ones. To achieve this, we employ a cascade of gating modules to automatically determine the earliest point in processing where an inference is sufficiently reliable. We generate on-the-fly supervision signals to the gates to provide a dynamic trade-off between accuracy and computational cost. Our proposed model outperforms competing methods on three large-scale video benchmarks. In particular, on ActivityNet1.3 and mini-kinetics, we outperform the state-of-the-art efficient video recognition methods with 1.3$\times$ and 2.1$\times$ less GFLOPs, respectively. Additionally, our method sets a new state of the art for efficient video understanding on the HVU benchmark.
Abstract（参考訳）: 本稿では,効率的な映像認識のための条件付き早期終了フレームワークを提案する。既存の作業では,計算コストを削減すべく,サラエントフレームのサブセットの選択に重点を置いているが,条件付き早期終了と組み合わせた単純なサンプリング戦略を用いることにより,効率的な認識を実現する。私たちのモデルは、より単純なビデオのフレーム数と複雑なビデオのフレーム数を自動的に学習します。これを実現するために,ガティングモジュールのカスケードを用いて,推論が十分信頼できる処理における最初期の点を自動的に決定する。ゲートにオンザフライで監視信号を生成し、精度と計算コストの動的トレードオフを提供する。提案手法は3つの大規模ビデオベンチマークにおいて競合する手法より優れている。特に activitynet1.3 と mini-kinetics では、最先端の効率的なビデオ認識手法をそれぞれ 1.3$\times$ と 2.1$\times$ less gflops で上回っている。さらに,提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。

関連論文リスト

Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文参考訳（メタデータ） (2025-03-17T21:13:48Z)
Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文参考訳（メタデータ） (2025-02-11T16:58:15Z)
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
本稿では,計算オーバーヘッドを大幅に削減しつつ,競争性能を向上するビデオ言語理解のための効率的なエンコーダレス手法を提案する。本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-24T18:59:56Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
View while Moving: Efficient Video Recognition in Long-untrimmed Videos [17.560160747282147]
本稿では,映像認識の効率化を目的とした新しい認識パラダイム"View while moving"を提案する。 2段階のパラダイムとは対照的に、我々のパラダイムは生のフレームに一度だけアクセスする必要がある。提案手法は精度と効率の両面で最先端の手法より優れている。
論文参考訳（メタデータ） (2023-08-09T09:46:26Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Deep Unsupervised Key Frame Extraction for Efficient Video Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文参考訳（メタデータ） (2022-11-12T20:45:35Z)
Streaming Radiance Fields for 3D Video Synthesis [32.856346090347174]
本稿では,実世界のダイナミックシーンの新たなビュー合成のための,ストリーミングレージアンス場再構築のための明示的グリッドベース手法を提案する。挑戦的なビデオシーケンスの実験により、我々の手法は、フレーム当たり15秒のトレーニング速度を、競合的なレンダリング品質で達成できることが示されている。
論文参考訳（メタデータ） (2022-10-26T16:23:02Z)
NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。 NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文参考訳（メタデータ） (2022-07-21T09:41:22Z)
OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文参考訳（メタデータ） (2022-01-12T09:50:38Z)
Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文参考訳（メタデータ） (2020-11-30T11:19:12Z)
A Real-time Action Representation with Temporal Encoding and Deep Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。 T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文参考訳（メタデータ） (2020-06-17T06:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。