論文の概要: Boosting Video Representation Learning with Multi-Faceted Integration
- arxiv url: http://arxiv.org/abs/2201.04023v1
- Date: Tue, 11 Jan 2022 16:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:16:08.058452
- Title: Boosting Video Representation Learning with Multi-Faceted Integration
- Title(参考訳): 多面統合による映像表現学習の促進
- Authors: Zhaofan Qiu and Ting Yao and Chong-Wah Ngo and Xiao-Ping Zhang and
Dong Wu and Tao Mei
- Abstract要約: ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 112.66127428372089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video content is multifaceted, consisting of objects, scenes, interactions or
actions. The existing datasets mostly label only one of the facets for model
training, resulting in the video representation that biases to only one facet
depending on the training dataset. There is no study yet on how to learn a
video representation from multifaceted labels, and whether multifaceted
information is helpful for video representation learning. In this paper, we
propose a new learning framework, MUlti-Faceted Integration (MUFI), to
aggregate facets from different datasets for learning a representation that
could reflect the full spectrum of video content. Technically, MUFI formulates
the problem as visual-semantic embedding learning, which explicitly maps video
representation into a rich semantic embedding space, and jointly optimizes
video representation from two perspectives. One is to capitalize on the
intra-facet supervision between each video and its own label descriptions, and
the second predicts the "semantic representation" of each video from the facets
of other datasets as the inter-facet supervision. Extensive experiments
demonstrate that learning 3D CNN via our MUFI framework on a union of four
large-scale video datasets plus two image datasets leads to superior capability
of video representation. The pre-learnt 3D CNN with MUFI also shows clear
improvements over other approaches on several downstream video applications.
More remarkably, MUFI achieves 98.1%/80.9% on UCF101/HMDB51 for action
recognition and 101.5% in terms of CIDEr-D score on MSVD for video captioning.
- Abstract(参考訳): ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成される。
既存のデータセットは、モデルトレーニング用のファセットの1つだけをラベル付けし、トレーニングデータセットに依存する1つのファセットに偏るビデオ表現を生成する。
多面ラベルからビデオ表現を学ぶ方法や、多面情報をビデオ表現学習に有用かどうかについてはまだ研究されていない。
本稿では,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
MUFIは、映像表現をリッチなセマンティックな埋め込み空間に明示的にマッピングし、2つの視点から映像表現を協調的に最適化する視覚意味埋め込み学習として問題を定式化する。
1つは、各ビデオとそのラベル記述間の顔内監督を活かし、もう1つは、他のデータセットの顔から各ビデオの「意味表現」を顔間監督として予測することである。
大規模な4つのビデオデータセットと2つの画像データセットを組み合わせることで、MUFIフレームワークを介して3D CNNを学習することが、ビデオ表現の優れた能力をもたらすことを示す。
MUFIを使った事前学習型3D CNNは、ダウンストリームビデオアプリケーションにおける他のアプローチよりも明らかに改善されている。
UCF101/HMDB51では98.1%/80.9%、ビデオキャプションではCIDEr-Dスコアでは101.5%である。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Learning from Semantic Alignment between Unpaired Multiviews for
Egocentric Video Recognition [23.031934558964473]
本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。
主要なアイデアは、ビデオの意味情報を活用することで、クロスビューの擬似ペアを構築し、ビュー不変アライメントを行うことである。
また,本手法は,より難易度の高いシナリオ下で,既存のビューアライメント手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-22T15:10:42Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。