論文の概要: Camera Movement Classification in Historical Footage: A Comparative Study of Deep Video Models
- arxiv url: http://arxiv.org/abs/2510.14713v1
- Date: Thu, 16 Oct 2025 14:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.895674
- Title: Camera Movement Classification in Historical Footage: A Comparative Study of Deep Video Models
- Title(参考訳): 歴史的足跡におけるカメラの動きの分類 : ディープビデオモデルの比較検討
- Authors: Tingyu Lin, Armin Dadras, Florian Kleber, Robert Sablatnig,
- Abstract要約: 本稿では,人工フィルム材料を用いた深部ビデオCMCモデルの最初の体系的評価について述べる。
5つの標準的なビデオ分類モデルは、専門家が注釈を付けた第二次世界大戦の映像を含むHISTORIANデータセットで評価される。
最高のパフォーマンスモデルであるVideo Swin Transformerは80.25%の精度を実現し、限られたトレーニングデータにもかかわらず強い収束を示す。
- 参考スコア(独自算出の注目度): 1.2875548392688383
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Camera movement conveys spatial and narrative information essential for understanding video content. While recent camera movement classification (CMC) methods perform well on modern datasets, their generalization to historical footage remains unexplored. This paper presents the first systematic evaluation of deep video CMC models on archival film material. We summarize representative methods and datasets, highlighting differences in model design and label definitions. Five standard video classification models are assessed on the HISTORIAN dataset, which includes expert-annotated World War II footage. The best-performing model, Video Swin Transformer, achieves 80.25% accuracy, showing strong convergence despite limited training data. Our findings highlight the challenges and potential of adapting existing models to low-quality video and motivate future work combining diverse input modalities and temporal architectures.
- Abstract(参考訳): カメラムーブメントは、映像コンテンツを理解するのに不可欠な空間的・物語的情報を伝達する。
近年のカメラムーブメント分類(CMC)手法は,現代のデータセットでは良好に機能するが,歴史的映像への一般化はいまだ解明されていない。
本稿では,人工フィルム材料を用いた深部ビデオCMCモデルの最初の体系的評価について述べる。
代表的手法とデータセットを要約し,モデル設計とラベル定義の違いを強調した。
5つの標準的なビデオ分類モデルは、専門家が注釈を付けた第二次世界大戦の映像を含むHISTORIANデータセットで評価される。
最高のパフォーマンスモデルであるVideo Swin Transformerは80.25%の精度を実現し、限られたトレーニングデータにもかかわらず強い収束を示す。
本研究は,既存モデルを低品質ビデオに適用し,多様な入力モダリティと時間的アーキテクチャを組み合わせることの課題と可能性を明らかにする。
関連論文リスト
- Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。
ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文 参考訳(メタデータ) (2025-04-08T06:00:28Z) - Video Diffusion Models: A Survey [3.7985353171858045]
拡散生成モデルは近年、高品質でコヒーレントなビデオコンテンツを作成し、修正するための強力な技術となっている。
本調査では,映像生成における拡散モデルの重要な構成要素について概説する。
論文 参考訳(メタデータ) (2024-05-06T04:01:42Z) - Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition [62.85802939587308]
本稿では,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に焦点をあてる。
記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防げるかが課題である。
本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。
論文 参考訳(メタデータ) (2024-01-11T23:00:24Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。