論文の概要: Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary
Action Recognition
- arxiv url: http://arxiv.org/abs/2403.01560v1
- Date: Sun, 3 Mar 2024 16:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:00:43.906117
- Title: Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary
Action Recognition
- Title(参考訳): クロスドメインオープン語彙行動認識におけるCLIPに基づくビデオ学習者の再考
- Authors: Kun-Yu Lin, Henghui Ding, Jiaming Zhou, Yi-Xing Peng, Zhilin Zhao,
Chen Change Loy, Wei-Shi Zheng
- Abstract要約: Contrastive Language-Image Pretraining (CLIP) は、様々な画像理解タスクにおいて顕著な開語彙能力を示している。
近年の先駆的な研究は、強力なCLIPをビデオデータに適用することを提案しており、オープン語彙アクション認識のための効率的で効果的なビデオ学習者を生み出している。
CLIPベースのビデオ学習者は、トレーニング中に遭遇していないビデオドメインに効果的に一般化できますか?
- 参考スコア(独自算出の注目度): 91.25980503879222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) has shown remarkable
open-vocabulary abilities across various image understanding tasks. Building
upon this impressive success, recent pioneer works have proposed to adapt the
powerful CLIP to video data, leading to efficient and effective video learners
for open-vocabulary action recognition. Inspired by the fact that humans
perform actions in diverse environments, our work delves into an intriguing
question: Can CLIP-based video learners effectively generalize to video domains
they have not encountered during training? To answer this, we establish a
CROSS-domain Open-Vocabulary Action recognition benchmark named XOV-Action, and
conduct a comprehensive evaluation of five state-of-the-art CLIP-based video
learners under various types of domain gaps. Our evaluation demonstrates that
previous methods exhibit limited action recognition performance in unseen video
domains, revealing potential challenges of the cross-domain open-vocabulary
action recognition task. To address this task, our work focuses on a critical
challenge, namely scene bias, and we accordingly contribute a novel scene-aware
video-text alignment method. Our key idea is to distinguish video
representations apart from scene-encoded text representations, aiming to learn
scene-agnostic video representations for recognizing actions across domains.
Extensive experimental results demonstrate the effectiveness of our method. The
benchmark and code will be available at
https://github.com/KunyuLin/XOV-Action/.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP) は、様々な画像理解タスクにおいて顕著な開語彙能力を示している。
この驚くべき成功を生かして、近年の先駆的な研究は、強力なCLIPをビデオデータに適用し、オープン語彙のアクション認識に効率的かつ効果的なビデオ学習者を生み出すことを提案した。
CLIPベースのビデオ学習者は、トレーニング中に遭遇していないビデオドメインに効果的に一般化できるだろうか?
そこで我々は,CROSS- domain Open-Vocabulary Action Recognition ベンチマーク XOV-Action を構築し,最先端のCLIPベースのビデオ学習者5名を対象に,様々なドメインギャップ下で包括的な評価を行う。
評価の結果,従来手法では未確認ビデオ領域での動作認識性能が制限されていたことが確認された。
この課題に対処するため,我々はシーンバイアスという重要な課題に焦点を合わせ,新たなシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
本手法の有効性を実験的に検証した。
ベンチマークとコードはhttps://github.com/KunyuLin/XOV-Action/.comで公開される。
関連論文リスト
- Open-Vocabulary Action Localization with Iterative Visual Prompting [8.07285448283823]
ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。
本稿では,新たな視覚言語モデルに基づく学習自由でオープンな語彙アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-30T17:12:14Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Learning video embedding space with Natural Language Supervision [1.6822770693792823]
本稿では,映像埋め込み空間を自然言語にマッピングする新しい手法を提案する。
本稿では,まず,事前学習したCNNを用いてビデオの各フレームから視覚的特徴を抽出し,次にCLIPモデルを用いて映像領域の視覚的特徴を符号化する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-25T23:24:57Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。