論文の概要: Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning
- arxiv url: http://arxiv.org/abs/2206.10157v1
- Date: Tue, 21 Jun 2022 07:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:52:36.752357
- Title: Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning
- Title(参考訳): コントラスト学習による映像ハイライト検出のためのビジュアルオーディオ表現の提案
- Authors: Shuaicheng Li, Feng Zhang, Kunlin Yang, Lingbo Liu, Shinan Liu, Jun
Hou, Shuai Yi
- Abstract要約: 効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
- 参考スコア(独自算出の注目度): 23.472951216815765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video highlight detection is a crucial yet challenging problem that aims to
identify the interesting moments in untrimmed videos. The key to this task lies
in effective video representations that jointly pursue two goals,
\textit{i.e.}, cross-modal representation learning and fine-grained feature
discrimination. In this paper, these two challenges are tackled by not only
enriching intra-modality and cross-modality relations for representation
modeling but also shaping the features in a discriminative manner. Our proposed
method mainly leverages the intra-modality encoding and cross-modality
co-occurrence encoding for fully representation modeling. Specifically,
intra-modality encoding augments the modality-wise features and dampens
irrelevant modality via within-modality relation learning in both audio and
visual signals. Meanwhile, cross-modality co-occurrence encoding focuses on the
co-occurrence inter-modality relations and selectively captures effective
information among multi-modality. The multi-modal representation is further
enhanced by the global information abstracted from the local context. In
addition, we enlarge the discriminative power of feature embedding with a
hard-pairs guided contrastive learning (HPCL) scheme. A hard-pairs sampling
strategy is further employed to mine the hard samples for improving feature
discrimination in HPCL. Extensive experiments conducted on two benchmarks
demonstrate the effectiveness and superiority of our proposed methods compared
to other state-of-the-art methods.
- Abstract(参考訳): ビデオのハイライト検出は、未トリミングビデオの面白い瞬間を特定することを目的とした、極めて難しい問題だ。
このタスクの鍵となるのは,2つの目標である \textit{i.e.},クロスモーダル表現学習,きめ細かい特徴識別を共同で追求する,効果的なビデオ表現にある。
本稿では,これらの2つの課題を,表現モデルにおけるモダリティ内およびモダリティ間関係の強化だけでなく,特徴を識別的に形成することで解決する。
提案手法は主にモダリティ内エンコーディングとクロスモダリティ共起エンコーディングを完全表現モデリングに活用する。
具体的には、モダリティ内エンコーディングはモダリティ的特徴を増強し、オーディオ信号と視覚信号の両方においてモダリティ内関係学習を通じて無関係なモダリティを弱めます。
一方、クロスモダリティ共起符号化は共起相互モダリティ関係に注目し、マルチモダリティ間の効果的な情報を選択的に取得する。
マルチモーダル表現は、ローカルコンテキストから抽象化されたグローバル情報によってさらに強化される。
さらに,特徴埋め込みの判別能力を,hpcl(hard-pairs guided contrastive learning)方式で拡張した。
また,hpclの特徴識別を改善するため,ハードペアサンプリング戦略を用いてハードサンプルをマイニングする。
2つのベンチマークで行った大規模な実験により,提案手法の有効性と優位性を示した。
関連論文リスト
- Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative Learning [66.28872204574648]
クロスモーダル・コヒーレンス・モデリングは、知的なシステムが情報を整理し構造化するのに不可欠である。
クロスモーダル・コヒーレンス・モデリングに関するこれまでの研究は、目標モーダルのコヒーレンス回復を支援するために、他のモーダルからの順序情報を活用することを試みた。
本報告では,コヒーレンシーに金のラベルを付けることなく,クロスモーダルガイダンスを活用する新しい手法について検討する。
論文 参考訳(メタデータ) (2024-08-01T06:04:44Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。