論文の概要: Rethinking the Architecture Design for Efficient Generic Event Boundary Detection
- arxiv url: http://arxiv.org/abs/2407.12622v1
- Date: Wed, 17 Jul 2024 14:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:45:33.219458
- Title: Rethinking the Architecture Design for Efficient Generic Event Boundary Detection
- Title(参考訳): 効率的なジェネリックイベント境界検出のためのアーキテクチャ設計の再考
- Authors: Ziwei Zheng, Zechuan Zhang, Yulin Wang, Shiji Song, Gao Huang, Le Yang,
- Abstract要約: ジェネリック(GEBD)は、ビデオを一貫した時間的チャンクに分割する人間の視覚的認知的行動にインスパイアされている。
SOTA GEBDモデルは、しばしばモデル複雑さよりも最終的なパフォーマンスを優先し、推論速度を低くし、現実のシナリオにおける効率的なデプロイメントを妨げる。
我々は,GEBDモデルのアーキテクチャを実験的に再検討し,この問題に対処するために貢献する。
- 参考スコア(独自算出の注目度): 71.50748944513379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic event boundary detection (GEBD), inspired by human visual cognitive behaviors of consistently segmenting videos into meaningful temporal chunks, finds utility in various applications such as video editing and. In this paper, we demonstrate that SOTA GEBD models often prioritize final performance over model complexity, resulting in low inference speed and hindering efficient deployment in real-world scenarios. We contribute to addressing this challenge by experimentally reexamining the architecture of GEBD models and uncovering several surprising findings. Firstly, we reveal that a concise GEBD baseline model already achieves promising performance without any sophisticated design. Secondly, we find that the widely applied image-domain backbones in GEBD models can contain plenty of architecture redundancy, motivating us to gradually ``modernize'' each component to enhance efficiency. Thirdly, we show that the GEBD models using image-domain backbones conducting the spatiotemporal learning in a spatial-then-temporal greedy manner can suffer from a distraction issue, which might be the inefficient villain for GEBD. Using a video-domain backbone to jointly conduct spatiotemporal modeling is an effective solution for this issue. The outcome of our exploration is a family of GEBD models, named EfficientGEBD, significantly outperforms the previous SOTA methods by up to 1.7\% performance gain and 280\% speedup under the same backbone. Our research prompts the community to design modern GEBD methods with the consideration of model complexity, particularly in resource-aware applications. The code is available at \url{https://github.com/Ziwei-Zheng/EfficientGEBD}.
- Abstract(参考訳): ジェネリックイベント境界検出(GEBD)は、映像を意味のある時間的チャンクに連続的に分割する人間の視覚的認知行動にインスパイアされ、ビデオ編集などの様々なアプリケーションで有用性を見出す。
本稿では,SOTA GEBDモデルがモデル複雑性よりも最終的な性能を優先することがしばしばあり,推論速度が低く,現実のシナリオにおける効率的な展開を妨げていることを実証する。
GEBDモデルのアーキテクチャを実験的に再検討し、いくつかの驚くべき発見を明らかにすることで、この問題に対処することに貢献する。
まず、精密なGABDベースラインモデルが、洗練された設計を伴わずに、有望な性能をすでに達成していることを明らかにする。
第二に、GEBDモデルの広く適用されている画像ドメインのバックボーンには、多くのアーキテクチャの冗長性があり、効率を高めるために各コンポーネントを段階的に‘近代化’する動機がある。
第3に,空間的・時間的欲求的な方法で時空間学習を行うイメージドメインのバックボーンを用いたGABDモデルは,GABDの非効率な悪役であるような気晴らし問題に悩まされる可能性があることを示す。
ビデオドメインのバックボーンを使って時空間モデリングを共同で行うことが,この問題に対する効果的な解決策である。
EfficientGEBD という名前の GEBD モデルのファミリは,従来の SOTA 手法を最大 1.7 % の性能向上と 280 % の高速化で大幅に上回っている。
本研究は,特に資源を意識したアプリケーションにおいて,モデル複雑性を考慮した最新のGABD手法を設計することを促すものである。
コードは \url{https://github.com/Ziwei-Zheng/EfficientGEBD} で公開されている。
関連論文リスト
- Multivariate Time-Series Anomaly Detection based on Enhancing Graph Attention Networks with Topological Analysis [31.43159668073136]
時系列における教師なし異常検出は、手動による介入の必要性を大幅に低減するため、産業応用において不可欠である。
従来の手法では、グラフニューラルネットワーク(GNN)やトランスフォーマーを使用して空間を解析し、RNNは時間的依存をモデル化していた。
本稿では,TopoGDNと呼ばれる多変量時系列異常検出のための拡張グラフ注意ネットワーク(GAT)上に構築された新しい時間モデルを提案する。
論文 参考訳(メタデータ) (2024-08-23T14:06:30Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - MAE-GEBD:Winning the CVPR'2023 LOVEU-GEBD Challenge [11.823891739821443]
様々なクラスに適用可能な一般的なイベント境界を検出することによって,ビデオセグメントをセグメントに分割するモデルを構築した。
去年のMAE-GEBD法に基づいて,データ処理戦略と損失関数を調整することにより,GEBDタスクにおけるモデル性能を改善した。
本研究では,2022年のKineetics-GEBD法と比較してF1スコアが0.09%向上したKineetics-GEBDテストセットにおいて,F1スコアの86.03%を達成した。
論文 参考訳(メタデータ) (2023-06-27T02:35:19Z) - Graph-based Multi-ODE Neural Networks for Spatio-Temporal Traffic
Forecasting [8.832864937330722]
長距離交通予測は、交通ネットワークで観測される複雑な時間的相関のため、依然として困難な課題である。
本稿では,GRAM-ODE(Graph-based Multi-ODE Neural Networks)と呼ばれるアーキテクチャを提案する。
実世界の6つのデータセットを用いて行った大規模な実験は、最先端のベースラインと比較して、GRAM-ODEの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T02:10:42Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。