論文の概要: OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition
- arxiv url: http://arxiv.org/abs/2312.00096v2
- Date: Thu, 28 Mar 2024 08:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 21:22:07.730313
- Title: OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition
- Title(参考訳): OST:汎用ビデオ認識のための最適時空間記述子によるテキスト知識の精製
- Authors: Tongjia Chen, Hongshan Yu, Zhengeng Yang, Zechuan Li, Wei Sun, Chen Chen,
- Abstract要約: 我々は、一般化可能なビデオ認識を容易にするために、テキスト知識の洗練を優先する。
カテゴリー名の区別の少ない意味空間の限界に対処するため、我々は大規模言語モデル (LLM) を推し進める。
我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。
- 参考スコア(独自算出の注目度): 8.18503795495178
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the resource-intensive nature of training vision-language models on expansive video data, a majority of studies have centered on adapting pre-trained image-language models to the video domain. Dominant pipelines propose to tackle the visual discrepancies with additional temporal learners while overlooking the substantial discrepancy for web-scaled descriptive narratives and concise action category names, leading to less distinct semantic space and potential performance limitations. In this work, we prioritize the refinement of text knowledge to facilitate generalizable video recognition. To address the limitations of the less distinct semantic space of category names, we prompt a large language model (LLM) to augment action class names into Spatio-Temporal Descriptors thus bridging the textual discrepancy and serving as a knowledge base for general recognition. Moreover, to assign the best descriptors with different video instances, we propose Optimal Descriptor Solver, forming the video recognition problem as solving the optimal matching flow across frame-level representations and descriptors. Comprehensive evaluations in zero-shot, few-shot, and fully supervised video recognition highlight the effectiveness of our approach. Our best model achieves a state-of-the-art zero-shot accuracy of 75.1% on Kinetics-600.
- Abstract(参考訳): 映像データ上に視覚言語モデルを訓練するリソース集約的な性質のため、多くの研究は、事前学習された画像言語モデルをビデオ領域に適応させることに重点を置いている。
支配的なパイプラインは、Webスケールの記述的物語や簡潔なアクションカテゴリ名に対する実質的な相違を克服しつつ、追加の時間的学習者による視覚的相違に対処することを提案し、意味的空間と潜在的なパフォーマンス制限を減らした。
本研究では,テキスト知識の洗練を優先して,一般化可能なビデオ認識を容易にする。
カテゴリー名の区別の少ない意味空間の制限に対処するため,大言語モデル(LLM)に,文の相違をブリッジし,一般認識のための知識基盤として機能する時空間記述子にアクションクラス名を拡張させるよう促す。
さらに,ビデオインスタンスに最適な記述子を割り当てるために,最適な記述子ソルバーを提案し,フレームレベルの表現と記述子間の最適なマッチングフローの解決として,ビデオ認識問題を形成する。
ゼロショット,少数ショット,完全教師付きビデオ認識における包括的評価は,我々のアプローチの有効性を浮き彫りにする。
我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。