論文の概要: DGME-T: Directional Grid Motion Encoding for Transformer-Based Historical Camera Movement Classification
- arxiv url: http://arxiv.org/abs/2510.15725v1
- Date: Fri, 17 Oct 2025 15:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.672276
- Title: DGME-T: Directional Grid Motion Encoding for Transformer-Based Historical Camera Movement Classification
- Title(参考訳): DGME-T: トランスフォーマーを用いた歴史的カメラ運動分類のための方向格子運動符号化
- Authors: Tingyu Lin, Armin Dadras, Florian Kleber, Robert Sablatnig,
- Abstract要約: 2つの現代コーパスを4つの標準クラスに統合し、HISTORIANコレクションを5つのバランスの取れたカテゴリに再構成する統一ベンチマークを組み込むことで、ギャップを埋める。
このベンチマークに基づいて,ビデオスウィントランスの軽量拡張であるDGME-Tを導入する。
クロスドメイン研究は、現代データにおける中間的な微調整段階が、過去のパフォーマンスを5ポイント以上増加させることを示している。
- 参考スコア(独自算出の注目度): 1.2875548392688383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera movement classification (CMC) models trained on contemporary, high-quality footage often degrade when applied to archival film, where noise, missing frames, and low contrast obscure motion cues. We bridge this gap by assembling a unified benchmark that consolidates two modern corpora into four canonical classes and restructures the HISTORIAN collection into five balanced categories. Building on this benchmark, we introduce DGME-T, a lightweight extension to the Video Swin Transformer that injects directional grid motion encoding, derived from optical flow, via a learnable and normalised late-fusion layer. DGME-T raises the backbone's top-1 accuracy from 81.78% to 86.14% and its macro F1 from 82.08% to 87.81% on modern clips, while still improving the demanding World-War-II footage from 83.43% to 84.62% accuracy and from 81.72% to 82.63% macro F1. A cross-domain study further shows that an intermediate fine-tuning stage on modern data increases historical performance by more than five percentage points. These results demonstrate that structured motion priors and transformer representations are complementary and that even a small, carefully calibrated motion head can substantially enhance robustness in degraded film analysis. Related resources are available at https://github.com/linty5/DGME-T.
- Abstract(参考訳): カメラモーション分類(CMC)モデルは、ノイズ、フレームの欠如、コントラストの低い動きの手がかりであるアーキバーフィルムに適用した場合、しばしば劣化する。
2つの現代コーパスを4つの標準クラスに統合し、HISTORIANコレクションを5つのバランスの取れたカテゴリに再構成する統一ベンチマークを組み込むことで、このギャップを埋める。
このベンチマークに基づいてDGME-Tを導入する。これはビデオスウィン変換器の軽量な拡張であり、学習可能で正規化された遅延融合層を介して、光流から誘導される方向格子運動符号化を注入する。
DGME-Tは、バックボーンのトップ1の精度を81.78%から86.14%に引き上げ、マクロF1は82.08%から87.81%まで近代的なクリップで上昇する一方、要求されるWorld-War-IIの映像は83.43%から84.62%、マクロF1は81.72%から82.63%に改善した。
クロスドメイン研究により、現代データにおける中間的な微調整段階が、過去のパフォーマンスを5ポイント以上増加させることが示されている。
これらの結果から, 構造的動き先行と変圧器表現は相補的であり, 小型かつ慎重に校正された動きヘッドであっても, 劣化フィルム解析における強靭性を大幅に向上させることができることがわかった。
関連するリソースはhttps://github.com/linty5/DGME-T.comにある。
関連論文リスト
- SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。
ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文 参考訳(メタデータ) (2025-04-08T06:00:28Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring
Space for Video Object Segmentation [10.892508722853558]
半教師付きビデオシステムのためのバイラテラルアテンション変換器(BATMAN)を提案する。
BATMANは、光学フロー推定でセグメンテーションマスクを融合させる新しい光学フローキャリブレーションモジュールを通じて、ビデオ内の物体の動きをキャプチャする。
動きと外観の両方を考慮して、隣り合う両側空間におけるクエリと参照フレームの対応を計算する。
論文 参考訳(メタデータ) (2022-08-01T22:21:34Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Deformable Video Transformer [44.71254375663616]
本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。
本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T04:52:27Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z) - Co-training Transformer with Videos and Images Improves Action
Recognition [49.160505782802886]
アクション認識の学習において、モデルは通常、ImageNetのようなオブジェクト認識イメージで事前訓練され、後にビデオによるターゲットアクション認識で微調整される。
このアプローチは、特に最近のトランスフォーマーベースのビデオアーキテクチャにおいて、優れた経験的性能を実現している。
ビデオトランスフォーマーは、多様なビデオデータセットとラベル空間のジョイントトレーニングの恩恵を受けるかを示す。
論文 参考訳(メタデータ) (2021-12-14T05:41:39Z) - Improved Multiscale Vision Transformers for Classification and Detection [80.64111139883694]
画像と映像の分類とオブジェクト検出のための統合アーキテクチャとして,MViT(Multiscale Vision Transformer)について検討した。
分割された相対的な位置埋め込みと残留プール接続を組み込んだMViTの改良版を提案する。
我々は、このアーキテクチャを5つのサイズでインスタンス化し、ImageNet分類、COCO検出およびKineeticsビデオ認識のために評価する。
論文 参考訳(メタデータ) (2021-12-02T18:59:57Z) - Video Swin Transformer [41.41741134859565]
我々は、ビデオトランスフォーマーにおける局所性の帰納バイアスを提唱する。
提案したビデオアーキテクチャの局所性は、画像領域用に設計されたSwin Transformerを適用することで実現される。
提案手法は,広い範囲の映像認識ベンチマークにおいて,最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-06-24T17:59:46Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。