論文の概要: Support-Set Based Cross-Supervision for Video Grounding
- arxiv url: http://arxiv.org/abs/2108.10576v1
- Date: Tue, 24 Aug 2021 08:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:18:21.137228
- Title: Support-Set Based Cross-Supervision for Video Grounding
- Title(参考訳): 映像グラウンディングのためのサポートセットベースクロススーパービジョン
- Authors: Xinpeng Ding, Nannan Wang, Shiwei Zhang, De Cheng, Xiaomeng Li, Ziyuan
Huang, Mingqian Tang, Xinbo Gao
- Abstract要約: サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
- 参考スコア(独自算出の注目度): 98.29089558426399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches for video grounding propose kinds of complex architectures
to capture the video-text relations, and have achieved impressive improvements.
However, it is hard to learn the complicated multi-modal relations by only
architecture designing in fact. In this paper, we introduce a novel Support-set
Based Cross-Supervision (Sscs) module which can improve existing methods during
training phase without extra inference cost. The proposed Sscs module contains
two main components, i.e., discriminative contrastive objective and generative
caption objective. The contrastive objective aims to learn effective
representations by contrastive learning, while the caption objective can train
a powerful video encoder supervised by texts. Due to the co-existence of some
visual entities in both ground-truth and background intervals, i.e., mutual
exclusion, naively contrastive learning is unsuitable to video grounding. We
address the problem by boosting the cross-supervision with the support-set
concept, which collects visual information from the whole video and eliminates
the mutual exclusion of entities. Combined with the original objectives, Sscs
can enhance the abilities of multi-modal relation modeling for existing
approaches. We extensively evaluate Sscs on three challenging datasets, and
show that our method can improve current state-of-the-art methods by large
margins, especially 6.35% in terms of R1@0.5 on Charades-STA.
- Abstract(参考訳): 現在のビデオグラウンドディングのアプローチでは、ビデオテキスト関係をキャプチャする複雑なアーキテクチャが提案されており、目覚ましい改善が達成されている。
しかし、実際にはアーキテクチャ設計のみで複雑なマルチモーダル関係を学習することは困難である。
本稿では,新たなSupport-set Based Cross-Supervision (Sscs) モジュールを提案する。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
対照的な目的は、対照的な学習によって効果的な表現を学ぶことであり、キャプション目的は、テキストによって教師される強力なビデオエンコーダを訓練することができる。
接地時間と背景時間の両方で視覚的実体が共存しているため、相互排他的学習はビデオの接地には適さない。
本稿では,映像全体から視覚情報を収集し,エンティティの相互排除を解消するサポートセットの概念を用いて,クロススーパービジョンを強化することでこの問題に対処する。
元の目的と組み合わせることで、Sscsは既存のアプローチに対するマルチモーダル関係モデリングの能力を高めることができる。
我々は,3つの挑戦的データセット上でSscsを広範囲に評価し,特にCharades-STA上のR1@0.5の6.35%において,最先端の手法を大きなマージンで改善できることを示す。
関連論文リスト
- STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。