論文の概要: Cross-modal Contrastive Learning with Asymmetric Co-attention Network
for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2312.07435v1
- Date: Tue, 12 Dec 2023 17:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:01:05.640013
- Title: Cross-modal Contrastive Learning with Asymmetric Co-attention Network
for Video Moment Retrieval
- Title(参考訳): ビデオモーメント検索のための非対称コアテンションネットワークを用いたクロスモーダルコントラスト学習
- Authors: Love Panta, Prashant Shrestha, Brabeem Sapkota, Amrita Bhattarai,
Suresh Manandhar, Anand Kumar Sah
- Abstract要約: ビデオモーメント検索は、ビデオとテキストの微妙な相互作用を必要とする課題である。
画像テキスト事前学習における最近の研究により、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることが示されている。
我々は、空間情報と時間情報の両方を保存するのに補助的な必要性のあるビデオテキスト領域にも、同様の問題が存在しているかどうかを疑問視する。
- 参考スコア(独自算出の注目度): 0.17590081165362778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video moment retrieval is a challenging task requiring fine-grained
interactions between video and text modalities. Recent work in image-text
pretraining has demonstrated that most existing pretrained models suffer from
information asymmetry due to the difference in length between visual and
textual sequences. We question whether the same problem also exists in the
video-text domain with an auxiliary need to preserve both spatial and temporal
information. Thus, we evaluate a recently proposed solution involving the
addition of an asymmetric co-attention network for video grounding tasks.
Additionally, we incorporate momentum contrastive loss for robust,
discriminative representation learning in both modalities. We note that the
integration of these supplementary modules yields better performance compared
to state-of-the-art models on the TACoS dataset and comparable results on
ActivityNet Captions, all while utilizing significantly fewer parameters with
respect to baseline.
- Abstract(参考訳): ビデオモーメント検索は、ビデオとテキストのモーメント間のきめ細かいインタラクションを必要とする課題である。
画像テキスト事前学習における最近の研究は、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることを示した。
我々は,空間的情報と時間的情報の両方を保持する補助的必要のあるビデオテキスト領域にも,同じ問題が存在するかどうかを疑問視する。
そこで本研究では,映像の接地作業に非対称なコアテンションネットワークを付加する手法を提案する。
さらに,両様相におけるロバストな識別表現学習のための運動量コントラスト損失も取り入れた。
これらの補足モジュールの統合は、TACoSデータセットの最先端モデルやActivityNet Captionsの同等の結果よりもパフォーマンスが向上し、ベースラインに対するパラメータが大幅に少ないことに留意する。
関連論文リスト
- RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Surgical Skill Assessment via Video Semantic Aggregation [20.396898001950156]
本稿では,異なる意味的部分を発見し,時間次元にまたがって集約する,スキルアセスメントフレームワークであるビデオセマンティックアグリゲーション(ViSA)を提案する。
意味的部分の明示的な発見は、ニューラルネットワークの決定を理解するのに役立つ説明的可視化を提供する。
2つのデータセットの実験は、最先端の手法と比較して、ViSAの競争力を示している。
論文 参考訳(メタデータ) (2022-08-04T12:24:01Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - SSAN: Separable Self-Attention Network for Video Representation Learning [11.542048296046524]
本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-05-27T10:02:04Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。