論文の概要: Smooth regularization for efficient video recognition
- arxiv url: http://arxiv.org/abs/2511.20928v1
- Date: Tue, 25 Nov 2025 23:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.897906
- Title: Smooth regularization for efficient video recognition
- Title(参考訳): 効率的なビデオ認識のための滑らかな正規化
- Authors: Gil Goldman, Raja Giryes, Mahadev Satyanarayanan,
- Abstract要約: 本稿では,ビデオ認識モデルに強い時間的帰納バイアスを与えるスムーズな正規化手法を提案する。
本手法は, 連続フレームの中間層埋め込みにおける滑らかさをガウスランダムウォーク (GRW) としてモデル化することによって促進する。
このようなモデルに適用すると,kinetics-600の精度は3.8%から6.4%向上した。
- 参考スコア(独自算出の注目度): 27.416435879154005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a smooth regularization technique that instills a strong temporal inductive bias in video recognition models, particularly benefiting lightweight architectures. Our method encourages smoothness in the intermediate-layer embeddings of consecutive frames by modeling their changes as a Gaussian Random Walk (GRW). This penalizes abrupt representational shifts, thereby promoting low-acceleration solutions that better align with the natural temporal coherence inherent in videos. By leveraging this enforced smoothness, lightweight models can more effectively capture complex temporal dynamics. Applied to such models, our technique yields a 3.8% to 6.4% accuracy improvement on Kinetics-600. Notably, the MoViNets model family trained with our smooth regularization improves the current state of the art by 3.8% to 6.1% within their respective FLOP constraints, while MobileNetV3 and the MoViNets-Stream family achieve gains of 4.9% to 6.4% over prior state-of-the-art models with comparable memory footprints. Our code and models are available at https://github.com/gilgoldm/grw-smoothing.
- Abstract(参考訳): 本稿では,ビデオ認識モデルに強い時間的帰納バイアスを与えるスムーズな正規化手法を提案する。
本手法は, 連続フレームの中間層埋め込みにおける滑らかさをガウスランダムウォーク (GRW) としてモデル化することによって促進する。
これにより、突然の表現シフトを罰し、ビデオに固有の自然な時間的コヒーレンスとよりよく整合する、低加速度のソリューションを促進する。
この強制された滑らかさを活用することで、軽量モデルは複雑な時間的ダイナミクスをより効果的に捉えることができる。
このようなモデルに適用すると,kinetics-600の精度は3.8%から6.4%向上した。
特に、我々のスムーズな正規化でトレーニングされたMoViNetsモデルファミリは、それぞれのFLOP制約の中で現在の状態を3.8%から6.1%改善し、MobileNetV3とMoViNets-Streamファミリは、同等のメモリフットプリントを持つ以前の最先端モデルよりも4.9%から6.4%向上した。
私たちのコードとモデルはhttps://github.com/gilgoldm/grw-smoothing.comで公開されています。
関連論文リスト
- Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation [21.242398582282522]
視覚誘導型オープンドメイン音声生成のための新しいフレームワークであるMDSGenを紹介する。
MDSGenはマスク付き拡散変換器を採用し、事前訓練された拡散モデルに頼らずに効率的な生成を容易にする。
ベンチマークVGGSoundデータセットから評価すると、最小のモデル(5Mパラメータ)は9.7.9$%のアライメント精度を実現している。
我々のより大きなモデル(131Mパラメータ)は、ほぼ99$%の精度に到達し、6.5times$より少ないパラメータを必要とします。
論文 参考訳(メタデータ) (2024-10-03T01:23:44Z) - An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation [0.799543372823325]
セグメント化モデルの一般化を促進するための拡張型モデル再適応フレームワーク(AMRF)を提案する。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
論文 参考訳(メタデータ) (2024-09-14T21:01:49Z) - Trimming the Fat: Efficient Compression of 3D Gaussian Splats through Pruning [17.097742540845672]
脂肪を磨く」とは、モデルに符号化された余分な情報を除去する、ポストホックな勾配インフォームド・イテレーティブ・プルーニング技術である。
提案手法は,ベースラインモデルに類似した性能を維持しつつ,約50$times$圧縮を実現し,最大600FPSの高速化を実現している。
論文 参考訳(メタデータ) (2024-06-26T09:57:55Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。