論文の概要: Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts
- arxiv url: http://arxiv.org/abs/2101.03713v1
- Date: Mon, 11 Jan 2021 05:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 14:43:19.750169
- Title: Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts
- Title(参考訳): サブコンセプト探索による弱ラベルWebビデオからの学習
- Authors: Kunpeng Li, Zizhao Zhang, Guanhang Wu, Xuehan Xiong, Chen-Yu Lee,
Zhichao Lu, Yun Fu, Tomas Pfister
- Abstract要約: 検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 89.06560404218028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning visual knowledge from massive weakly-labeled web videos has
attracted growing research interests thanks to the large corpus of easily
accessible video data on the Internet. However, for video action recognition,
the action of interest might only exist in arbitrary clips of untrimmed web
videos, resulting in high label noises in the temporal space. To address this
issue, we introduce a new method for pre-training video action recognition
models using queried web videos. Instead of trying to filter out, we propose to
convert the potential noises in these queried videos to useful supervision
signals by defining the concept of Sub-Pseudo Label (SPL). Specifically, SPL
spans out a new set of meaningful "middle ground" label space constructed by
extrapolating the original weak labels during video querying and the prior
knowledge distilled from a teacher model. Consequently, SPL provides enriched
supervision for video models to learn better representations. SPL is fairly
simple and orthogonal to popular teacher-student self-training frameworks
without extra training cost. We validate the effectiveness of our method on
four video action recognition datasets and a weakly-labeled image dataset to
study the generalization ability. Experiments show that SPL outperforms several
existing pre-training strategies using pseudo-labels and the learned
representations lead to competitive results when fine-tuning on HMDB-51 and
UCF-101 compared with recent pre-training methods.
- Abstract(参考訳): インターネット上のアクセスが容易なビデオデータの大規模なコーパスのおかげで、Webビデオの弱ラベル化から視覚的知識を学ぶことが、研究の関心を集めている。
しかし、ビデオアクション認識では、興味のある動作は、トリミングされていないウェブビデオの任意のクリップにのみ存在し、時間空間のラベルノイズが高まる。
この問題に対処するために,問合せウェブビデオを用いた映像行動認識モデルの事前学習手法を提案する。
そこで本研究では,質問ビデオ中の潜在的な雑音を,サブプセドラベル(spl)の概念を定め,有用な監督信号に変換することを提案する。
具体的には、ビデオクエリ中に元の弱いラベルを外挿し、教師モデルから事前の知識を抽出することで、意味のある「中核」ラベル空間を新たに作る。
その結果、splはビデオモデルがより良い表現を学ぶための強化された監督を提供する。
SPLは比較的単純で、教育費がかからない一般的な教師による自己学習フレームワークと直交する。
提案手法の有効性を4つのビデオ行動認識データセットと弱ラベル画像データセットで検証し,一般化能力について検討した。
実験により、SPLは擬似ラベルと学習表現を用いて既存の事前学習戦略よりも優れており、HMDB-51とUCF-101を微調整すると、最近の事前学習法と比較して競合する結果が得られた。
関連論文リスト
- Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文 参考訳(メタデータ) (2023-07-10T15:47:13Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。
また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文 参考訳(メタデータ) (2021-12-07T21:50:40Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。