論文の概要: Masked Feature Modelling: Feature Masking for the Unsupervised
Pre-training of a Graph Attention Network Block for Bottom-up Video Event
Recognition
- arxiv url: http://arxiv.org/abs/2308.12673v1
- Date: Thu, 24 Aug 2023 09:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:37:45.723877
- Title: Masked Feature Modelling: Feature Masking for the Unsupervised
Pre-training of a Graph Attention Network Block for Bottom-up Video Event
Recognition
- Title(参考訳): Masked Feature Modelling: ボトムアップビデオイベント認識のためのグラフ注意ネットワークブロックの教師なし事前学習のための特徴マスキング
- Authors: Dimitrios Daskalakis, Nikolaos Gkalelis, Vasileios Mezaris
- Abstract要約: 本稿では,グラフ注意ネットワーク(GAT)ブロックの教師なし事前学習のための新しいアプローチであるMasked Feature Modelling (MFM)を紹介する。
MFMは、トレーニング済みのVisual Tokenizerを使用して、MiniKineticsデータセットを使用して、ビデオ内のオブジェクトのマスクされた特徴を再構築する。
次に、トレーニング済みのGATブロックを最先端のボトムアップ監視ビデオイベント認識アーキテクチャ(ViGAT)に組み込んで、モデルの開始点と全体的な精度を改善する。
- 参考スコア(独自算出の注目度): 9.284740716447342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Masked Feature Modelling (MFM), a novel approach
for the unsupervised pre-training of a Graph Attention Network (GAT) block. MFM
utilizes a pretrained Visual Tokenizer to reconstruct masked features of
objects within a video, leveraging the MiniKinetics dataset. We then
incorporate the pre-trained GAT block into a state-of-the-art bottom-up
supervised video-event recognition architecture, ViGAT, to improve the model's
starting point and overall accuracy. Experimental evaluations on the YLI-MED
dataset demonstrate the effectiveness of MFM in improving event recognition
performance.
- Abstract(参考訳): 本稿では,グラフ注意ネットワーク(GAT)ブロックの教師なし事前学習のための新しいアプローチであるMasked Feature Modelling (MFM)を紹介する。
MFMはトレーニング済みのVisual Tokenizerを使用して、MiniKineticsデータセットを使用して、ビデオ内のオブジェクトのマスクされた特徴を再構築する。
次に、トレーニング済みのGATブロックを最先端のボトムアップ監視ビデオイベント認識アーキテクチャ(ViGAT)に組み込んで、モデルの開始点と全体的な精度を改善する。
YLI-MEDデータセットの実験的評価は、イベント認識性能の向上におけるMFMの有効性を示す。
関連論文リスト
- Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文 参考訳(メタデータ) (2023-11-08T16:59:26Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Good helper is around you: Attention-driven Masked Image Modeling [12.961634455083775]
マスク付き画像モデリング(MIM)は自己教師あり学習において大きな可能性を示している。
我々は,textbfAttention-driven Masking and Throwing Strategy (AMT)を提案する。
AMTは、CIFAR-10/100、STL-10、Tiny ImageNet、ImageNet-1KでMAEの線形探索精度を$2.9%改善した。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。