論文の概要: Transferring Textual Knowledge for Visual Recognition
- arxiv url: http://arxiv.org/abs/2207.01297v1
- Date: Mon, 4 Jul 2022 10:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:15:58.009963
- Title: Transferring Textual Knowledge for Visual Recognition
- Title(参考訳): 視覚認識のためのテキスト知識の伝達
- Authors: Wenhao Wu, Zhun Sun, Wanli Ouyang
- Abstract要約: ダウンストリームタスクのためのタスクに依存しない事前訓練された深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
オープンソースのVision-Languageは、モデルアーキテクチャとデータ量の大規模に事前訓練されたモデルである。
我々のパラダイムは、Kineetics-400上で87.3%の最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 102.93524173258487
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transferring knowledge from task-agnostic pre-trained deep models for
downstream tasks is an important topic in computer vision research. Along with
the growth of computational capacity, we now have open-source Vision-Language
pre-trained models in large scales of the model architecture and amount of
data. In this study, we focus on transferring knowledge for vision
classification tasks. Conventional methods randomly initialize the linear
classifier head for vision classification, but they leave the usage of the text
encoder for downstream visual recognition tasks undiscovered. In this paper, we
revise the role of the linear classifier and replace the classifier with the
embedded language representations of the object categories. These language
representations are initialized from the text encoder of the vision-language
pre-trained model to further utilize its well-pretrained language model
parameters. The empirical study shows that our method improves both the
performance and the training speed of video classification, with a negligible
change in the model. In particular, our paradigm achieves the state-of-the-art
accuracy of 87.3% on Kinetics-400.
- Abstract(参考訳): ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
計算能力の増大とともに、我々はオープンソースのVision-Language事前学習モデルを、大規模なモデルアーキテクチャとデータの量で提供しています。
本研究では,視覚分類タスクにおける知識の伝達に着目した。
従来の手法では、視覚分類のための線形分類器ヘッドをランダムに初期化するが、下流の視覚認識タスクにテキストエンコーダを使用する。
本稿では,線形分類器の役割を再検討し,分類器をオブジェクトカテゴリの組込み言語表現に置き換える。
これらの言語表現は視覚言語事前学習モデルのテキストエンコーダから初期化され、事前学習された言語モデルパラメータをさらに活用する。
実験により,本手法は映像分類の性能とトレーニング速度の両方を,モデルに無視できる変化を伴って改善することを示した。
特に,我々のパラダイムは,Kineetics-400上で87.3%の最先端の精度を実現している。
関連論文リスト
- VoltaVision: A Transfer Learning model for electronic component classification [1.4132765964347058]
我々はVoltaVisionと呼ばれる軽量CNNを導入し、その性能をより複雑なモデルと比較する。
我々は、類似したタスクから対象ドメインへの知識の転送が、一般的なデータセットでトレーニングされた最先端モデルよりも優れた結果をもたらすという仮説を検証した。
論文 参考訳(メタデータ) (2024-04-05T05:42:23Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - LiT Tuned Models for Efficient Species Detection [22.3395465641384]
本稿では,任意の微細な画像分類データセットを分散視覚言語事前学習に適用するための簡単な手法を提案する。
iNaturalist-2021データセットは、約270万のマクロ微生物の画像で構成されており、1万のクラスにまたがっている。
我々のモデルは(ロック画像テキストチューニングと呼ばれる新しい手法を用いて訓練)、事前訓練された凍結された視覚表現を用いて、言語アライメントだけで強力な移動学習性能が得られることを証明している。
論文 参考訳(メタデータ) (2023-02-12T20:36:55Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。