論文の概要: Learning from Semantic Alignment between Unpaired Multiviews for
Egocentric Video Recognition
- arxiv url: http://arxiv.org/abs/2308.11489v2
- Date: Wed, 23 Aug 2023 16:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 11:13:02.006033
- Title: Learning from Semantic Alignment between Unpaired Multiviews for
Egocentric Video Recognition
- Title(参考訳): 自己中心型ビデオ認識のためのマルチビューのセマンティックアライメントからの学習
- Authors: Qitong Wang, Long Zhao, Liangzhe Yuan, Ting Liu, Xi Peng
- Abstract要約: 本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。
主要なアイデアは、ビデオの意味情報を活用することで、クロスビューの擬似ペアを構築し、ビュー不変アライメントを行うことである。
また,本手法は,より難易度の高いシナリオ下で,既存のビューアライメント手法よりも優れている。
- 参考スコア(独自算出の注目度): 23.031934558964473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are concerned with a challenging scenario in unpaired multiview video
learning. In this case, the model aims to learn comprehensive multiview
representations while the cross-view semantic information exhibits variations.
We propose Semantics-based Unpaired Multiview Learning (SUM-L) to tackle this
unpaired multiview learning problem. The key idea is to build cross-view
pseudo-pairs and do view-invariant alignment by leveraging the semantic
information of videos. To facilitate the data efficiency of multiview learning,
we further perform video-text alignment for first-person and third-person
videos, to fully leverage the semantic knowledge to improve video
representations. Extensive experiments on multiple benchmark datasets verify
the effectiveness of our framework. Our method also outperforms multiple
existing view-alignment methods, under the more challenging scenario than
typical paired or unpaired multimodal or multiview learning. Our code is
available at https://github.com/wqtwjt1996/SUM-L.
- Abstract(参考訳): 非ペア型マルチビュービデオ学習における難易度シナリオについて考察した。
この場合、クロスビューのセマンティック情報が変動を示す一方で、包括的なマルチビュー表現を学習することを目的としている。
本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。
重要なアイデアは、クロスビューの擬似ペアを作り、ビデオの意味情報を活用してビュー不変のアライメントを行うことである。
マルチビュー学習のデータ効率を向上させるため,一対一及び三対一のビデオに対してビデオテキストアライメントを行い,セマンティック知識をフル活用して映像表現を改善する。
複数のベンチマークデータセットに対する大規模な実験は、我々のフレームワークの有効性を検証する。
また,従来のマルチモーダル学習やマルチビュー学習よりも難易度が高く,既存のビューアライメント手法よりも優れていた。
私たちのコードはhttps://github.com/wqtwjt1996/SUM-Lで公開されています。
関連論文リスト
- Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Seeing All the Angles: Learning Multiview Manipulation Policies for
Contact-Rich Tasks from Demonstrations [7.51557557629519]
成功したマルチビューポリシは,モバイル操作プラットフォームにデプロイすることが可能だ。
様々な視点からデータを収集することで、模倣学習によってマルチビューのポリシーを見いだせることを示す。
マルチビューデータからの学習は,同一量の固定ビューデータによる学習と比較して,固定ビュータスクのパフォーマンスに対するペナルティがほとんどないことを示した。
論文 参考訳(メタデータ) (2021-04-28T17:43:29Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Embedded Deep Bilinear Interactive Information and Selective Fusion for
Multi-view Learning [70.67092105994598]
本稿では,上記の2つの側面に着目した,新しい多視点学習フレームワークを提案する。
特に、さまざまな深層ニューラルネットワークをトレーニングして、様々なビュー内表現を学習する。
6つの公開データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-13T01:13:23Z) - Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view
Representation [11.91574721055601]
本稿では,MvLPE(Multi-view Low-rank Preserving Embedding)という新しい多視点学習手法を提案する。
異なるビューを1つのセントロイドビューに統合し、インスタンス間の距離や類似性行列に基づいて、不一致項を最小化する。
6つのベンチマークデータセットの実験では、提案手法がそれよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-06-14T12:47:25Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。