論文の概要: VicTR: Video-conditioned Text Representations for Activity Recognition
- arxiv url: http://arxiv.org/abs/2304.02560v1
- Date: Wed, 5 Apr 2023 16:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:06:30.650935
- Title: VicTR: Video-conditioned Text Representations for Activity Recognition
- Title(参考訳): VicTR:活動認識のためのビデオ条件付きテキスト表現
- Authors: Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani and Michael S. Ryoo
- Abstract要約: テキストとビデオトークンを共同で最適化し,「ビデオ条件付きテキスト」埋め込みを生成するVicTRを提案する。
本手法は,視覚的な補助テキストの形で,自由に利用できるセマンティック情報を活用することができる。
- 参考スコア(独自算出の注目度): 70.48740920699194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language models have shown strong performance in the image-domain --
even in zero-shot settings, thanks to the availability of large amount of
pretraining data (i.e., paired image-text examples). However for videos, such
paired data is not as abundant. Thus, video-text models are usually designed by
adapting pretrained image-text models to video-domain, instead of training from
scratch. All such recipes rely on augmenting visual embeddings with temporal
information (i.e., image -> video), often keeping text embeddings unchanged or
even being discarded. In this paper, we argue that such adapted video-text
models can benefit more by augmenting text rather than visual information. We
propose VicTR, which jointly-optimizes text and video tokens, generating
'Video-conditioned Text' embeddings. Our method can further make use of
freely-available semantic information, in the form of visually-grounded
auxiliary text (e.g., object or scene information). We conduct experiments on
multiple benchmarks including supervised (Kinetics-400, Charades), zero-shot
and few-shot (HMDB-51, UCF-101) settings, showing competitive performance on
activity recognition based on video-text models.
- Abstract(参考訳): ビジョンランゲージモデルは、大量の事前学習データ(ペア画像テキストの例)が利用可能であるため、ゼロショット設定でも、画像領域で強いパフォーマンスを示している。
しかしビデオでは、このようなペアデータはあまり豊富ではない。
したがって、ビデオテキストモデルは、スクラッチからトレーニングする代わりに、訓練済みの画像テキストモデルをビデオドメインに適応することで設計される。
これらのレシピはすべて、時間的情報(画像 -> ビデオ)で視覚的な埋め込みを増強することに依存しており、しばしばテキストの埋め込みは変わらないか、破棄されるかさえある。
本稿では、このような適応型ビデオテキストモデルは、視覚情報よりもテキストを増補することで、より有益であると論じる。
本稿では,テキストとビデオトークンを共同で最適化するVicTRを提案する。
本手法は,視覚的な補助テキスト(オブジェクトやシーン情報など)の形式で,自由に利用できる意味情報を利用することができる。
我々は,ビデオテキストモデルに基づく行動認識における競合性能を示す,教師付き(kinetics-400,charades),ゼロショットおよび少数ショット(hmdb-51,utf-101)などのベンチマーク実験を行った。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - 3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation [13.622700558266658]
本稿では,凍結事前学習型視覚言語モデル(VLM)をバックボーンとして用いることを提案する。
まず、フリーズした畳み込みCLIPバックボーンを使用して、機能に整合したビジョンとテキスト機能を生成し、ドメインギャップの問題を軽減する。
第二に、マルチモーダル情報の利用を高めるために、パイプラインによりクロスモーダルな特徴融合を追加します。
論文 参考訳(メタデータ) (2024-06-07T11:15:03Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Scalable and Accurate Self-supervised Multimodal Representation Learning
without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。
既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-04T19:11:05Z) - MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文 参考訳(メタデータ) (2023-03-15T20:17:41Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。