Fugu-MT 論文翻訳(概要): Hierarchical Self-supervised Representation Learning for Movie Understanding

論文の概要: Hierarchical Self-supervised Representation Learning for Movie Understanding

arxiv url: http://arxiv.org/abs/2204.03101v1
Date: Wed, 6 Apr 2022 21:28:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-08 14:33:54.418710
Title: Hierarchical Self-supervised Representation Learning for Movie Understanding
Title（参考訳）: 映画理解のための階層的自己教師付き表現学習
Authors: Fanyi Xiao, Kaustav Kundu, Joseph Tighe and Davide Modolo
Abstract要約: 本稿では,階層的映画理解モデルの各レベルを個別に事前学習する,新しい階層的自己指導型事前学習戦略を提案する。具体的には、コントラスト学習目標を用いた低レベルビデオバックボーンの事前トレーニングと、イベントマスク予測タスクを用いた高レベルビデオコンテクストアライザの事前トレーニングを提案する。まず、我々の自己指導型事前学習戦略が効果的であることを示し、VidSituベンチマーク[37]における全てのタスクとメトリクスのパフォーマンス改善につながっている(例:意味的役割予測を47%から61% CIDErスコアに改善する)。
参考スコア（独自算出の注目度）: 24.952866206036536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most self-supervised video representation learning approaches focus on action recognition. In contrast, in this paper we focus on self-supervised video learning for movie understanding and propose a novel hierarchical self-supervised pretraining strategy that separately pretrains each level of our hierarchical movie understanding model (based on [37]). Specifically, we propose to pretrain the low-level video backbone using a contrastive learning objective, while pretrain the higher-level video contextualizer using an event mask prediction task, which enables the usage of different data sources for pretraining different levels of the hierarchy. We first show that our self-supervised pretraining strategies are effective and lead to improved performance on all tasks and metrics on VidSitu benchmark [37] (e.g., improving on semantic role prediction from 47% to 61% CIDEr scores). We further demonstrate the effectiveness of our contextualized event features on LVU tasks [54], both when used alone and when combined with instance features, showing their complementarity.
Abstract（参考訳）: ほとんどの自己教師付きビデオ表現学習アプローチは、アクション認識に焦点を当てている。そこで本研究では,映画理解のための自己教師あり映像学習に着目し,階層的映画理解モデル([37])の各レベルを個別に事前学習する新しい階層的自己教師あり事前学習戦略を提案する。具体的には,コントラスト学習目標を用いて低レベルビデオバックボーンを事前学習し,イベントマスク予測タスクを用いて高レベルビデオコンテクストライザを事前学習し,階層の異なるレベルを事前学習するための異なるデータソースの使用を可能にすることを提案する。筆者らはまず,VidSituベンチマーク[37]において,自己指導型事前学習戦略が有効であることを示し,すべてのタスクとメトリクスのパフォーマンス向上を図っている(セマンティックロール予測の47%から61%のCIDErスコアの改善など)。さらに,LVUタスクを単独で使用する場合と,インスタンス機能と組み合わせた場合の両方において,コンテキスト化イベント機能の有効性を実証し,その相補性を示す。

関連論文リスト

A Large-Scale Analysis on Contextual Self-Supervised Video Representation Learning [22.870129496984546]
異なる手法間の公正な比較を可能にする統一されたベンチマークを確立する。本研究では,(1)データセットのサイズ,(2)モデル複雑性,(3)データ分布,(4)データノイズ,(5)特徴表現の5つの重要な側面について検討する。本稿では,10%以上の事前学習データに依存する最先端の手法を超越しながら,トレーニングデータ要求を大幅に削減する新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-08T15:47:58Z)
Contrastive Losses Are Natural Criteria for Unsupervised Video Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文参考訳（メタデータ） (2022-11-18T07:01:28Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
Auxiliary Learning for Self-Supervised Video Representation via Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文参考訳（メタデータ） (2021-12-07T21:50:40Z)
Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文参考訳（メタデータ） (2021-10-20T14:45:13Z)
Learning Actor-centered Representations for Action Localization in Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-29T06:06:58Z)
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。 CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文参考訳（メタデータ） (2021-04-01T06:42:16Z)
Memory-augmented Dense Predictive Coding for Video Representation Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文参考訳（メタデータ） (2020-08-03T17:57:01Z)
Unsupervised Learning of Video Representations via Dense Trajectory Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文参考訳（メタデータ） (2020-06-28T22:23:03Z)
Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。 i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文参考訳（メタデータ） (2020-06-22T17:55:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。