論文の概要: CrossVideo: Self-supervised Cross-modal Contrastive Learning for Point
Cloud Video Understanding
- arxiv url: http://arxiv.org/abs/2401.09057v1
- Date: Wed, 17 Jan 2024 08:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:25:06.142879
- Title: CrossVideo: Self-supervised Cross-modal Contrastive Learning for Point
Cloud Video Understanding
- Title(参考訳): crossvideo: 自己教師付きクロスモーダルコントラスト学習によるポイントクラウドビデオ理解
- Authors: Yunze Liu, Changxi Chen, Zifan Wang, Li Yi
- Abstract要約: CrossVideoは、ポイントクラウドビデオ理解の分野で、自己教師付きクロスモーダルコントラスト学習を強化することを目的としている。
本稿では、ポイントクラウドビデオと画像ビデオの相互関係を利用して意味のある特徴表現を得る自己教師付き学習手法を提案する。
- 参考スコア(独自算出の注目度): 31.06413429223736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel approach named CrossVideo, which aims to
enhance self-supervised cross-modal contrastive learning in the field of point
cloud video understanding. Traditional supervised learning methods encounter
limitations due to data scarcity and challenges in label acquisition. To
address these issues, we propose a self-supervised learning method that
leverages the cross-modal relationship between point cloud videos and image
videos to acquire meaningful feature representations. Intra-modal and
cross-modal contrastive learning techniques are employed to facilitate
effective comprehension of point cloud video. We also propose a multi-level
contrastive approach for both modalities. Through extensive experiments, we
demonstrate that our method significantly surpasses previous state-of-the-art
approaches, and we conduct comprehensive ablation studies to validate the
effectiveness of our proposed designs.
- Abstract(参考訳): 本稿では,ポイントクラウドビデオ理解分野における自己教師型クロスモーダルコントラスト学習の強化を目的とした,CrossVideoという新しいアプローチを提案する。
従来の教師付き学習手法は、データ不足とラベル取得の課題のために制限を受ける。
そこで本研究では,ポイントクラウド映像と画像映像の相互モーダル関係を利用して有意義な特徴表現を得る自己教師付き学習手法を提案する。
イントラモーダルおよびクロスモーダルコントラスト学習技術は、ポイントクラウドビデオの効果的な理解を促進するために用いられる。
また,両様相に対する多レベルコントラストアプローチを提案する。
提案手法が従来の最先端手法を大幅に上回っており,提案手法の有効性を検証するために包括的アブレーション研究を実施している。
関連論文リスト
- Video Summarization Techniques: A Comprehensive Review [1.6381055567716192]
本稿では,抽象的戦略と抽出的戦略の両方を強調し,映像要約のための様々なアプローチと手法について考察する。
抽出要約のプロセスは、ソースビデオからキーフレームやセグメントを識別し、ショット境界認識やクラスタリングなどの手法を利用する。
一方、抽象的な要約は、深層ニューラルネットワークや自然言語処理、強化学習、注意機構、生成的敵ネットワーク、マルチモーダル学習といった機械学習モデルを用いて、ビデオから不可欠なコンテンツを取得することによって、新たなコンテンツを生成する。
論文 参考訳(メタデータ) (2024-10-06T11:17:54Z) - Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective [13.776455033015216]
本稿では,アクション認識のための新しいクロスビュー学習手法を提案する。
まず,トランスフォーマーの自己注意機構に幾何学的制約を新たに導入する。
そこで本稿では, 自己意識のメカニズムを学習し, 知識を視点間で伝達するために, 自己意識を学習するために, 未確認のクロスビューデータに基づいて学習した, 新たな自己意識の喪失を提案する。
論文 参考訳(メタデータ) (2023-05-25T04:14:49Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Support-Set Based Cross-Supervision for Video Grounding [98.29089558426399]
サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:25:26Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。