論文の概要: Supervised Contrastive Frame Aggregation for Video Representation Learning
- arxiv url: http://arxiv.org/abs/2512.12549v1
- Date: Sun, 14 Dec 2025 04:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.307989
- Title: Supervised Contrastive Frame Aggregation for Video Representation Learning
- Title(参考訳): 映像表現学習のための教師付きコントラストフレームアグリゲーション
- Authors: Shaif Chowdhury, Mushfika Rahman, Greg Hamerly,
- Abstract要約: 本稿では,各映像から複数のフレームを1つの入力画像に空間的に配置する画像集約戦略を提案する。
次に、モデルによって生成されたペアワイズプロジェクションを直接比較する、対照的な学習目標を設計する。
同じビデオの複数の自然なビューは、同じビデオから異なる時間的フレームサンプリングを使用して作成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a supervised contrastive learning framework for video representation learning that leverages temporally global context. We introduce a video to image aggregation strategy that spatially arranges multiple frames from each video into a single input image. This design enables the use of pre trained convolutional neural network backbones such as ResNet50 and avoids the computational overhead of complex video transformer models. We then design a contrastive learning objective that directly compares pairwise projections generated by the model. Positive pairs are defined as projections from videos sharing the same label while all other projections are treated as negatives. Multiple natural views of the same video are created using different temporal frame samplings from the same underlying video. Rather than relying on data augmentation these frame level variations produce diverse positive samples with global context and reduce overfitting. Experiments on the Penn Action and HMDB51 datasets demonstrate that the proposed method outperforms existing approaches in classification accuracy while requiring fewer computational resources. The proposed Supervised Contrastive Frame Aggregation method learns effective video representations in both supervised and self supervised settings and supports video based tasks such as classification and captioning. The method achieves seventy six percent classification accuracy on Penn Action compared to forty three percent achieved by ViVIT and forty eight percent accuracy on HMDB51 compared to thirty seven percent achieved by ViVIT.
- Abstract(参考訳): 本研究では,時間的グローバルな文脈を利用した映像表現学習のための教師付きコントラスト学習フレームワークを提案する。
本稿では,各映像から複数のフレームを1つの入力画像に空間的に配置する画像集約戦略を提案する。
この設計により、ResNet50のような事前訓練された畳み込みニューラルネットワークバックボーンの使用が可能になり、複雑なビデオトランスモデルの計算オーバーヘッドを回避することができる。
次に、モデルによって生成されたペアワイズプロジェクションを直接比較する、対照的な学習目標を設計する。
陽性ペアは、同じラベルを共有するビデオからのプロジェクションとして定義され、他のすべてのプロジェクションは負として扱われる。
同じビデオの複数の自然なビューは、同じビデオから異なる時間的フレームサンプリングを使用して作成される。
データ拡張に頼るのではなく、これらのフレームレベルのバリエーションは、グローバルなコンテキストを持つさまざまなポジティブなサンプルを生成し、オーバーフィッティングを減らす。
ペンアクションとHMDB51データセットの実験により、提案手法は計算資源を少なくしながら、分類精度の既存の手法よりも優れていることを示した。
提案手法は,教師付きと自己監督型の両方で効果的な映像表現を学習し,分類やキャプションなどの映像ベースタスクをサポートする。
この方法は、VivITが達成した43%、HMDB51が達成した37%と、VivITが達成した37%と比較して、Penn Actionの76%の分類精度を実現している。
関連論文リスト
- Probabilistic Representations for Video Contrastive Learning [64.47354178088784]
本稿では,確率的表現と対比学習を橋渡しする自己教師型表現学習法を提案する。
ビデオ配信全体から埋め込みをサンプリングすることにより、注意深いサンプリング戦略や変換を回避し、クリップの拡張ビューを生成することができる。
論文 参考訳(メタデータ) (2022-04-08T09:09:30Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。