論文の概要: PESFormer: Boosting Macro- and Micro-expression Spotting with Direct Timestamp Encoding
- arxiv url: http://arxiv.org/abs/2410.18695v1
- Date: Thu, 24 Oct 2024 12:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:00.730857
- Title: PESFormer: Boosting Macro- and Micro-expression Spotting with Direct Timestamp Encoding
- Title(参考訳): PESFormer: 直接タイムスタンプエンコーディングによるマクロ・マイクロ圧縮スポッティングの高速化
- Authors: Wang-Wang Yu, Kai-Fu Yang, Xiangrui Hu, Jingwen Jiang, Hong-Mei Yan, Yong-Jie Li,
- Abstract要約: PESFormerは、ポイント・ツー・インターバル式スポッティングを実現するビジョン・トランスフォーマーアーキテクチャに基づくモデルである。
PESFormerは、アンカーを置き換えるために直接タイムスタンプ符号化(DTE)アプローチを採用し、各タイムスタンプのバイナリ分類を可能にする。
我々は、未編集のトレーニングビデオをゼロパディングして、一定期間の均一で長いビデオを作成する戦略を実装した。
- 参考スコア(独自算出の注目度): 19.006364251731753
- License:
- Abstract: The task of macro- and micro-expression spotting aims to precisely localize and categorize temporal expression instances within untrimmed videos. Given the sparse distribution and varying durations of expressions, existing anchor-based methods often represent instances by encoding their deviations from predefined anchors. Additionally, these methods typically slice the untrimmed videos into fixed-length sliding windows. However, anchor-based encoding often fails to capture all training intervals, and slicing the original video as sliding windows can result in valuable training intervals being discarded. To overcome these limitations, we introduce PESFormer, a simple yet effective model based on the vision transformer architecture to achieve point-to-interval expression spotting. PESFormer employs a direct timestamp encoding (DTE) approach to replace anchors, enabling binary classification of each timestamp instead of optimizing entire ground truths. Thus, all training intervals are retained in the form of discrete timestamps. To maximize the utilization of training intervals, we enhance the preprocessing process by replacing the short videos produced through the sliding window method.Instead, we implement a strategy that involves zero-padding the untrimmed training videos to create uniform, longer videos of a predetermined duration. This operation efficiently preserves the original training intervals and eliminates video slice enhancement.Extensive qualitative and quantitative evaluations on three datasets -- CAS(ME)^2, CAS(ME)^3 and SAMM-LV -- demonstrate that our PESFormer outperforms existing techniques, achieving the best performance.
- Abstract(参考訳): マクロおよびマイクロ圧縮スポッティングの課題は、未トリミングビデオ内の時間的表現インスタンスを正確にローカライズし、分類することである。
スパース分布と表現の変動期間を考えると、既存のアンカーベースのメソッドは、事前に定義されたアンカーからの逸脱をエンコードすることでインスタンスを表現することが多い。
さらに、これらの方法は通常、未トリミングされたビデオを固定長のスライドウィンドウにスライスする。
しかし、アンカーベースの符号化はトレーニング間隔をすべてキャプチャできず、元のビデオをスライディングウィンドウとしてスライシングすることで、貴重なトレーニング間隔が破棄される可能性がある。
これらの制約を克服するために、視覚変換器アーキテクチャに基づくシンプルで効果的なモデルであるPSSFormerを導入し、ポイント・ツー・インターバル式スポッティングを実現する。
PESFormerは、アンカーを置き換えるために直接タイムスタンプ符号化(DTE)アプローチを採用しており、基底真実全体を最適化する代わりに、各タイムスタンプのバイナリ分類を可能にする。
したがって、トレーニング間隔はすべて、離散タイムスタンプの形で保持される。
トレーニング間隔を最大化するために,スライディングウインドウ法によるショートビデオの置き換えにより,事前処理プロセスを強化する。
CAS(ME)^2, CAS(ME)^3, SAMM-LVの3つのデータセットの質的, 定量的評価により, 我々のPESFormerが既存の技術より優れており, 最高の性能が得られることを示した。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Temporal Stochastic Softmax for 3D CNNs: An Application in Facial
Expression Recognition [11.517316695930596]
本稿では,3次元CNNの効率的なビデオベーストレーニング戦略を提案する。
ソフトマックスの時間プーリングと、最も関連するトレーニングクリップを選択するための重み付けサンプリング機構に依存している。
論文 参考訳(メタデータ) (2020-11-10T16:40:00Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。