Fugu-MT 論文翻訳(概要): Multiview Pseudo-Labeling for Semi-supervised Learning from Video

論文の概要: Multiview Pseudo-Labeling for Semi-supervised Learning from Video

arxiv url: http://arxiv.org/abs/2104.00682v1
Date: Thu, 1 Apr 2021 17:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-02 13:57:17.979292
Title: Multiview Pseudo-Labeling for Semi-supervised Learning from Video
Title（参考訳）: ビデオからの半教師あり学習のためのマルチビュー擬似ラベル
Authors: Bo Xiong, Haoqi Fan, Kristen Grauman, Christoph Feichtenhofer
Abstract要約: 本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
参考スコア（独自算出の注目度）: 102.36355560553402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a multiview pseudo-labeling approach to video learning, a novel framework that uses complementary views in the form of appearance and motion information for semi-supervised learning in video. The complementary views help obtain more reliable pseudo-labels on unlabeled video, to learn stronger video representations than from purely supervised data. Though our method capitalizes on multiple views, it nonetheless trains a model that is shared across appearance and motion input and thus, by design, incurs no additional computation overhead at inference time. On multiple video recognition datasets, our method substantially outperforms its supervised counterpart, and compares favorably to previous work on standard benchmarks in self-supervised video representation learning.
Abstract（参考訳）: 映像における半教師あり学習のための外観情報と動き情報という形態の相補的なビューを利用する新しいフレームワークである,ビデオ学習に対する多視点擬似ラベル方式を提案する。補完的なビューは、純粋な教師なしデータよりも強力なビデオ表現を学ぶために、ラベルなしビデオの信頼性の高い擬似ラベルを得るのに役立つ。提案手法は複数のビューを対象とするが,出現と動きの入力間で共有されるモデルを学習するので,設計上,推論時に計算オーバーヘッドを発生しない。複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。

関連論文リスト

Switch-a-View: View Selection Learned from Unlabeled In-the-wild Videos [71.01549400773197]
ハウツービデオを作成する際に,各時点に表示すべき視点を自動的に選択するモデルであるSWITCH-A-VIEWを紹介する。トレーニングビデオに擬似ラベルのセグメントを第一の視点に配置する作業を行う。一方のハウツービデオにおける視覚的コンテンツと音声的コンテンツの間のパターンと,他方のビュー・スウィッチ・モーメントを見出す。
論文参考訳（メタデータ） (2024-12-24T12:16:43Z)
Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文参考訳（メタデータ） (2024-11-13T16:31:08Z)
VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。 VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文参考訳（メタデータ） (2023-08-28T17:10:12Z)
Learning from Semantic Alignment between Unpaired Multiviews for Egocentric Video Recognition [23.031934558964473]
本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。主要なアイデアは、ビデオの意味情報を活用することで、クロスビューの擬似ペアを構築し、ビュー不変アライメントを行うことである。また,本手法は,より難易度の高いシナリオ下で,既存のビューアライメント手法よりも優れている。
論文参考訳（メタデータ） (2023-08-22T15:10:42Z)
Self-Supervised Video Representation Learning by Video Incoherence Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文参考訳（メタデータ） (2021-09-26T04:58:13Z)
Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文参考訳（メタデータ） (2021-07-06T05:23:30Z)
ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文参考訳（メタデータ） (2021-06-04T08:44:50Z)
CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文参考訳（メタデータ） (2021-04-30T05:46:02Z)
Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文参考訳（メタデータ） (2021-02-04T17:28:35Z)
Self-supervised Video Representation Learning Using Inter-intra Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文参考訳（メタデータ） (2020-08-06T09:08:14Z)
Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文参考訳（メタデータ） (2020-06-02T06:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。